JP2023115775A - Tactile sense presentation signal generation device, video tactile sense interlocking system, and program - Google Patents

Tactile sense presentation signal generation device, video tactile sense interlocking system, and program Download PDF

Info

Publication number
JP2023115775A
JP2023115775A JP2022018175A JP2022018175A JP2023115775A JP 2023115775 A JP2023115775 A JP 2023115775A JP 2022018175 A JP2022018175 A JP 2022018175A JP 2022018175 A JP2022018175 A JP 2022018175A JP 2023115775 A JP2023115775 A JP 2023115775A
Authority
JP
Japan
Prior art keywords
tactile
person
video
image
signal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022018175A
Other languages
Japanese (ja)
Inventor
正樹 高橋
Masaki Takahashi
真希子 堀
Makiko Hori
拓也 半田
Takuya Handa
雅規 佐野
Masami Sano
結子 山内
Yuiko Yamauchi
裕也 ▲桑▼野
Yuya Kuwano
貴裕 望月
Takahiro Mochizuki
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Nippon Hoso Kyokai NHK
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Hoso Kyokai NHK, Japan Broadcasting Corp filed Critical Nippon Hoso Kyokai NHK
Priority to JP2022018175A priority Critical patent/JP2023115775A/en
Publication of JP2023115775A publication Critical patent/JP2023115775A/en
Pending legal-status Critical Current

Links

Abstract

To provide: a tactile sense presentation signal generation device which generates a tactile sense presentation signal for driving a tactile sense presentation device by using an audio signal with respect to a sound signal based on tactile sense metadata automatically generated from only a video signal of video content and synchronizing the audio signal with the video signal; a video tactile sense interlocking system which drives and controls the tactile sense presentation device on the basis of the generated tactile sense presentation signal; and a program.SOLUTION: A tactile sense presentation signal generation device 1 of the present invention includes: a low-frequency audio extraction section 11 which extracts a low-frequency audio signal from an audio signal; a tactile sense metadata generation section 12 which generates tactile sense metadata from video analysis of a video signal; a signal conversion section 13 which converts each tactile sense metadata into a sound signal corresponding to tactile sense stimulation; and a synchronization synthesis section 15 which generates a tactile sense presentation signal obtained by synchronously synthesizing the low-frequency audio signal and the sound signal. A video tactile sense interlocking system 10 of the present invention includes: the tactile sense presentation signal generation device 1; a tactile sense presentation device 5; and a control unit 4 for control the tactile sense presentation device.SELECTED DRAWING: Figure 1

Description

本発明は、映像コンテンツに連動して触覚提示デバイスを駆動するための触覚提示信号を生成する触覚提示信号生成装置、生成した触覚提示信号を基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムに関する。 The present invention provides a tactile presentation signal generation apparatus that generates a tactile presentation signal for driving a tactile presentation device in conjunction with video content, a video-tactile interlocking system that drives and controls the tactile presentation device based on the generated tactile presentation signal, and program.

放送映像等の一般的なカメラ映像の映像信号及び音声信号からなる映像コンテンツは、視覚と聴覚の2つの感覚に訴える情報を提供するメディアである。しかし、視覚障害者や聴覚障害者に対しては視聴覚情報だけでは不十分であり、番組コンテンツの状況を正確に伝えることができない。そのため、テレビを持っていない、若しくは持っていても視聴しない障害者も多い。そこで、映像コンテンツに対し、視覚・聴覚以外の第三の感覚として“触覚”で感じられる情報を提示することで、視覚又は聴覚の障害者もテレビ放送を理解できるシステムの構築が望まれる。 2. Description of the Related Art A video content consisting of a video signal and an audio signal of general camera video such as broadcast video is a medium that provides information that appeals to the two senses of sight and hearing. However, audio-visual information alone is insufficient for visually impaired and hearing impaired people, and it is not possible to accurately convey the situation of program content. Therefore, there are many people with disabilities who either do not own a TV or do not watch it even if they do. Therefore, it is desired to construct a system that allows visually or hearing impaired people to understand television broadcasting by presenting information that can be felt by "tactile sensation" as a third sense other than sight and hearing.

また、視覚・聴覚の感覚を有する健常者にとっても、また、触覚刺激を提示することにより放送番組の視聴時の臨場感や没入感の向上が期待できる。特に、スポーツコンテンツにおける人物の動きは重要な情報であり、これを触覚刺激で提示することにより、コンテンツ視聴における臨場感が高まる。 In addition, for healthy people who have visual and auditory senses, the presentation of tactile stimuli can be expected to improve the sense of realism and immersion when viewing broadcast programs. In particular, the movement of a person in sports content is important information, and by presenting this with tactile stimulation, the presence of the content can be enhanced.

例えば、野球映像を視聴する際、ボールがバットに当たるタイミングで触覚提示デバイスを介して視聴者に刺激を与えることで、バッターのヒッティングの感覚を疑似体験できる。また、視覚に障害のある方々に触覚刺激を提供することで、スポーツの試合状況を理解させることにも繋がると考えられる。このように、触覚は映像視聴における第3の感覚として期待されている。 For example, when watching a baseball video, the viewer can simulate the sensation of hitting by a batter by stimulating the viewer via a tactile presentation device when the ball hits the bat. It is also thought that providing tactile stimulation to visually impaired people will help them understand the state of a sports match. Thus, tactile sensation is expected as the third sense in video viewing.

特に、スポーツはリアルタイムでの映像視聴が重要視されるため、映像に対する触覚刺激の提示は、自動、且つリアルタイムで行われる必要がある。そこで、プレーの種類、タイミング、状況などに関する選手の動きに同期した触覚刺激の提示が、触覚を併用した映像コンテンツの映像視聴に効果的な場合が多い。そして、視覚又は聴覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。 In sports, in particular, real-time video viewing is important, so presentation of tactile stimuli to video must be automatic and real-time. Therefore, presenting tactile stimuli synchronized with the player's movements regarding the type of play, timing, situation, etc. is often effective for video viewing of video content using tactile sensations. It is also possible to convey the sports situation to people with visual or hearing impairments.

このため、触覚を併用した映像コンテンツの映像視聴を実現するには、その映像コンテンツから人物オブジェクトの動きを抽出し、抽出した人物オブジェクトの動きに対応した触覚情報を触覚メタデータとして生成することが必要になる。 Therefore, in order to realize video viewing of video content that uses the sense of touch, it is necessary to extract the movement of the human object from the video content and generate haptic information corresponding to the extracted movement of the human object as haptic metadata. become necessary.

しかし、従来の触覚メタデータの生成法では、触覚を併用した映像視聴を実現するとしても、触覚提示デバイスにより、どのようなタイミングで、またどのような刺激をユーザに提示するかを示す触覚メタデータを、映像と同期した態様で人手により編集する必要があった。 However, with the conventional tactile metadata generation method, even if video viewing using tactile sensation is realized, tactile metadata indicating at what timing and what kind of stimulus is to be presented to the user by the tactile presentation device. The data had to be manually edited in a synchronized manner with the video.

収録番組の場合、人手で時間をかけて触覚メタデータを編集することが可能である。しかし、生放送映像に対して触覚提示デバイスによる刺激提示を連動させるには、事前に触覚情報を編集することができないことから、リアルタイムで映像コンテンツの映像解析を行い、触覚メタデータを生成することが要求される。 For recorded programs, it is possible to manually edit the haptic metadata over time. However, since it is not possible to edit the tactile information in advance in order to link the stimulation presentation by the tactile presentation device to the live broadcast video, it is necessary to analyze the video content in real time and generate the tactile metadata. requested.

近年、スポーツ映像解析技術は、目覚ましい成長を遂げている。ウィンブルドンでも使用されているテニスのホークアイシステムは、複数の固定カメラ映像をセンサとしてテニスボールを3次元的に追跡し、ジャッジに絡むIN/OUTの判定を行っている。また2014年のFIFAワールドカップでは、ゴールラインテクノロジーと称して、数台の固定カメラの映像を解析し、ゴールの判定を自動化している。更に、サッカースタジアムへ多数のステレオカメラを設定し、フィールド内の全選手をリアルタイムに追跡するTRACABシステム等、スポーツにおけるリアルタイム映像解析技術の高度化が進んでいる。 In recent years, sports video analysis technology has achieved remarkable growth. The Hawkeye system of tennis, which is also used at Wimbledon, tracks a tennis ball three-dimensionally using multiple fixed camera images as sensors, and judges whether it is in or out in relation to the judges. Also, at the 2014 FIFA World Cup, goal line technology was used to analyze images from several fixed cameras and automate goal determination. In addition, real-time video analysis technology in sports is becoming more sophisticated, such as the TRACAB system, which tracks all players on the field in real time by setting up a large number of stereo cameras in a soccer stadium.

動的な人物オブジェクトとして選手の姿勢を計測するには、従来、マーカー式のモーションキャプチャー方式を用いた計測が一般的である。しかし、この方式は、選手の体に多数のマーカーを装着する必要があり、実試合には適用できない。そこで、近年では、選手の体に投光されている赤外線パターンを読み取り、その赤外線パターンの歪みから深度情報を得る深度センサを用いることで、マーカーレスでの人物姿勢計測が可能になっている。また、マーカー式ではなく、光学式のモーションキャプチャー方式を応用した種々の技術が開示されている(例えば、特許文献1,2,3参照)。 In order to measure the posture of a player as a dynamic human object, conventionally, measurement using a marker-type motion capture method is common. However, this method requires a large number of markers to be attached to the player's body, and cannot be applied to actual games. Therefore, in recent years, markerless human posture measurement has become possible by using a depth sensor that reads the infrared pattern projected onto the player's body and obtains depth information from the distortion of the infrared pattern. Also, various techniques have been disclosed that apply an optical motion capture method instead of the marker method (see, for example, Patent Documents 1, 2, and 3).

例えば、特許文献1では、立体視を用いた仮想現実システムにおいて他者の模範動作映像を表示することにより使用者に対して動作を教示する際に、光学式のモーションキャプチャー方式により、計測対象者の骨格の3次元位置を計測する装置が開示されている。また、特許文献2では、体操競技などの映像とモーションキャプチャデータから得られる情報を利用し、動作認識を施す技術が開示されており、隠れマルコフモデルを利用し、動作の時間的長短の制約を取り除いていることに特長を有している。また、特許文献3には、光学式のモーションキャプチャー方式を利用してプレイヤーの動作を測定し、測定したデータとモデルのフォームに関するデータとに基づいて同プレイヤーのフォームを評価するトレーニング評価装置について開示されている。しかし、これらの技術は、モーションキャプチャー方式を利用するため、実際の試合に適用できず、汎用的なカメラ映像から人物のプレー動作を計測することは難しい。 For example, in Patent Literature 1, when instructing a user to perform a motion by displaying a model motion image of another person in a virtual reality system using stereoscopic vision, an optical motion capture method is used to teach a person to be measured. Disclosed is an apparatus for measuring the three-dimensional position of the skeleton of a In addition, Patent Document 2 discloses a technique for recognizing actions by using information obtained from images of gymnastics and other motion capture data. It has the feature of being removed. In addition, Patent Document 3 discloses a training evaluation device that measures a player's motion using an optical motion capture method and evaluates the player's form based on the measured data and model form data. It is However, since these techniques use a motion capture method, they cannot be applied to an actual game, and it is difficult to measure a person's playing motion from a general-purpose camera image.

また、モーションキャプチャー方式によらず、一人又は二人が一組となってバドミントンの試合やバドミントン練習を撮影したカメラ映像のみから、人物の動きをシミュレートする装置が開示されている(例えば、特許文献4参照)。特許文献4の技術では、撮影したカメラ映像から、ショットなどの動作を検出するものとなっているが、専用に設定したカメラによる撮影映像から処理することを前提としており、汎用的な放送カメラ映像から人物のプレー動作を計測することは難しい。 In addition, a device is disclosed that simulates the movement of a person from only camera images of a badminton match or practice of one person or two people in a group without relying on the motion capture method (for example, patent Reference 4). In the technique of Patent Document 4, actions such as shots are detected from captured camera images. It is difficult to measure the playing motion of a person from the

このため、マーカー装着によるモーションキャプチャーや、撮影距離に制限のある深度センサなどを用いずに、任意の映像コンテンツの映像信号からリアルタイムで映像解析を行って触覚刺激の種類やタイミングを判断し、予め用意した触覚刺激を提示するシステムが望ましい。特に、スポーツ中継はリアルタイム性が重視されるコンテンツである。 For this reason, without using motion capture with markers or depth sensors with limited shooting distances, video analysis is performed in real time from the video signal of arbitrary video content to determine the type and timing of tactile stimulation in advance. A system that presents prepared tactile stimuli is desirable. In particular, sports broadcasting is content in which real-time performance is emphasized.

そこで、任意の映像コンテンツの映像解析を行って、触覚刺激の種類やタイミングを判断し、予め用意した触覚刺激を触覚メタデータとして提示する方法を、本願明細書中、「触覚メタデータ方式」と呼ぶこととする。 Therefore, a method of performing video analysis of arbitrary video content, determining the type and timing of tactile stimulus, and presenting prepared tactile stimulus as tactile metadata is referred to herein as a “tactile metadata method”. I will call.

触覚メタデータ方式であれば、例えば映像コンテンツとして競技に関する触覚情報もリアルタイムで、映像と同時に提示でき、編集も容易であり、競技に係る選手の動きに同期した触覚刺激を効果的に提示できる。 With the tactile metadata method, for example, tactile information related to the competition can be presented as video content in real time at the same time as the video, editing is easy, and tactile stimulation synchronized with the movements of the athletes involved in the competition can be effectively presented.

近年では、深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっている。触覚メタデータ方式として、この深層学習技術を用いることで、通常のカメラ映像から静止画像を抽出し、その静止画像に含まれる選手の姿勢を自動計測することが可能となっている。即ち、通常のカメラ映像から選手の姿勢を計測することで、競技に影響を与えず、触覚刺激に関する情報を取得することが可能である。 In recent years, advances in deep learning technology have made it possible to estimate a person's skeletal position from a normal still image that does not contain depth information, without using a depth sensor, which has been difficult in the past. By using this deep learning technology as a tactile metadata method, it is possible to extract still images from ordinary camera images and automatically measure the player's posture contained in the still images. That is, by measuring the player's posture from a normal camera image, it is possible to acquire information about tactile stimulation without affecting the game.

骨格情報の取得により、人物の姿勢を計測することは可能であるが、その姿勢の意味付けには認識処理が必要となる。例えば、柔道の映像を入力した際、当該フレームで行われている動作内容が「組み合い」なのか「投げ技」なのか「寝技」なのかは、画像特徴や骨格特徴から判別する必要がある。画像処理における認識処理で広く用いられているのがConvolutional Neural Network(CNN)である。CNNは、何段もの深い層を持つニューラルネットワークで、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。 Although it is possible to measure a person's posture by acquiring skeletal information, recognition processing is required to give meaning to the posture. For example, when judo video is input, it is necessary to determine from the image characteristics and skeletal characteristics whether the action performed in the frame is a "fight", a "throwing technique", or a "submission". Convolutional Neural Network (CNN) is widely used for recognition processing in image processing. A CNN is a neural network with many deep layers, and is a network that exhibits excellent performance especially in the field of image recognition. This network is constructed by piling up layers with several characteristic functions such as "convolution layer" and "pooling layer", and is currently used in a wide range of fields.

一般的なニューラルネットワークでは層状にニューロンを配置し、前後の層に含まれるニューロン同士は網羅的に結線するのが普通であるが、この畳み込みニューラルネットワークではこのニューロン同士の結合をうまく制限し、尚且つウェイト共有という手法を使うことで、画像の畳み込みに相当するような処理をニューラルネットワークの枠組みの中で表現している。この層は「畳み込み層」と呼ばれ、CNNの最大の特徴となっている。また、この畳み込みニューラルネットワークにおいて、もうひとつ大きな特徴が、「プーリング層」である。CNNにおいて、「畳み込み層」が画像からのエッジ抽出等の特徴抽出の役割を果たしているとすると、「プーリング層」はそうした抽出された特徴が、平行移動などでも影響を受けないようにロバスト性を与えている。 In a general neural network, neurons are arranged in layers, and the neurons included in the preceding and succeeding layers are normally connected exhaustively. By using a technique called weight sharing, it expresses processing equivalent to image convolution within the framework of a neural network. This layer is called a “convolutional layer” and is the most important feature of CNN. Another major feature of this convolutional neural network is the “pooling layer”. In CNN, if the “convolutional layer” plays the role of feature extraction such as edge extraction from the image, the “pooling layer” is robust so that such extracted features are not affected by translation etc. giving.

他方で、骨格情報を利用する以外にも、画像から動作を認識する手法として、Motion History Image(MHI)と呼ばれる画像が従来使われてきた(例えば、非特許文献1、特許文献5参照)。MHIは、フレームごとに輝度差分が生じた領域を高い輝度で塗りつぶし、以降のフレームでは徐々にその輝度を下げて描画した画像であり、動オブジェクトの動きの向きの情報を持つ1枚の画像となっている。 On the other hand, besides using skeleton information, an image called Motion History Image (MHI) has conventionally been used as a technique for recognizing motion from an image (see, for example, Non-Patent Document 1 and Patent Document 5). MHI is an image in which the area where the luminance difference occurs in each frame is filled with high luminance, and the subsequent frames are drawn with the luminance gradually lowered. It's becoming

特許文献5では、画像認識技術を用いて野球映像から投球動作を検出する技術が開示されており、野球映像に対してMotion History Image(MHI)を作成し、投球動作を検出するものとなっている。このMHIを解析することで、”腕を広げる”、”しゃがむ”、”手を上げる”など人物の基本的な動きを判定することが可能になる。ただし、特許文献5に開示される技法のMHIは人物の骨格検出を行っておらず、詳細な動作の認識は困難であり、全身を使った大きな動作の認識に限られる。 Patent Literature 5 discloses a technique for detecting a pitching motion from a baseball video using image recognition technology, in which a Motion History Image (MHI) is created for the baseball video and the pitching motion is detected. there is By analyzing this MHI, it becomes possible to determine the basic movements of a person, such as "spread arms," "crouch," and "raise hands." However, the MHI of the technique disclosed in Patent Document 5 does not detect the skeleton of a person, it is difficult to recognize detailed movements, and it is limited to recognizing large movements using the whole body.

そこで、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像(ボーン画像)についてMHIを生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image(Skl MHI)と称される技術も開示されている(例えば、非特許文献2参照)。Skl MHIは、フレームごとに輝度差分が生じた領域を高い輝度で塗りつぶし、以降のフレームでは徐々にその輝度を下げて描画した画像である。時間情報を含まない静止画像に、輝度変化による時間軸情報を埋め込んだ画像となっている。 Therefore, MHI is generated for the image (bone image) showing the connection line connecting the human skeleton and each skeleton obtained by skeletal detection, and the skeleton motion history image (Bone image) that measures the posture of the person from the camera image by deep learning technology. Skl MHI) is also disclosed (for example, see Non-Patent Document 2). The Skl MHI is an image in which the area where the luminance difference occurs in each frame is filled with high luminance, and the subsequent frames are drawn with the luminance gradually lowered. The image is a still image that does not contain time information and has embedded time axis information based on changes in brightness.

ところで、古くから「ボディソニック(体感音響システム)」と称し、椅子に音楽と連動した触覚刺激を提示するシステムが知られている(例えば、非特許文献3参照)。また、「Ontenna」と称し、音を振動に変える小型デバイスも知られている(例えば、非特許文献4参照)。 By the way, there has long been known a system called "body sonic (sensory sound system)" that presents a tactile stimulus linked to music on a chair (see, for example, Non-Patent Document 3). Also known is a small device called "Ontenna" that converts sound into vibration (see, for example, Non-Patent Document 4).

そして、例えば音楽の低音成分を椅子等に組み込んだ振動子によって振動として提示する前述のボディソニックのように、マルチモーダルな情報提示を行う技術が知られている(例えば、特許文献6参照)。また、従来の映像音声に加えて、振動等の触覚情報や、移動感等の体性感覚情報を提示するテーマパークや映画館等が存在する。また、放送通信連携のサービスを用いてテレビ放送の映像音声に加えて収録した振動情報を通信経由で伝送する手法も存在する。 For example, there is known a technique for presenting multimodal information, such as the above-mentioned body sonic, which presents bass components of music as vibrations using a vibrator built into a chair or the like (see, for example, Patent Document 6). In addition to conventional video and audio, there are theme parks and movie theaters that present tactile information such as vibration and somatosensory information such as a sense of movement. There is also a method of transmitting recorded vibration information in addition to the video and audio of television broadcasts via communication using a broadcast-communication cooperation service.

また、視的表示とともにプレイヤー(ユーザ)に対し体感を与える機能を有するゲーム装置についても開示されている(例えば、特許文献7参照)。このゲーム装置では、低域スピーカに対して特定の視的表示のタイミングで、ハイパワーアンプで増幅された信号が入力される。この入力信号に対応して低域スピーカは低域音源となり、いわゆるボディソニックの体感をプレイヤーに対し与えることを可能としている。 Also disclosed is a game device having a function of providing a player (user) with a visual display as well as a physical sensation (see, for example, Patent Document 7). In this game device, a signal amplified by a high-power amplifier is input to a low-frequency speaker at specific visual display timing. In response to this input signal, the low-frequency speaker becomes a low-frequency sound source, making it possible to give the player a so-called bodysonic experience.

また、背もたれ及び座部にそれぞれ固有の触覚提示デバイスを設置した体感音響システムについても開示されている(例えば、特許文献8参照)。この体感音響システムでは、背もたれ及び座部を有するシートと、入力された音声信号を帯域分割して、第1の音声信号に応じて振動する第1の振動素子を背もたれ内に配置し、第2の音声信号に応じて振動する第2の振動素子を座部内に配置する構成となっており、長時間利用しても、不快感又は圧迫感を感じることが少ない体感音響を実現するとしている。 Also disclosed is a sensory acoustic system in which unique tactile sensation presentation devices are installed in the backrest and seat (see, for example, Patent Document 8). In this body-sensory acoustic system, a seat having a backrest and a seat, a first vibration element that band-divides an input audio signal and vibrates according to the first audio signal is arranged in the backrest, and a second vibration element is arranged in the backrest. The second vibration element that vibrates according to the audio signal is placed in the seat, and it is said that it realizes a bodily sensation that does not cause discomfort or oppression even when used for a long time.

このように、音声信号を触覚刺激に変換し、提示する試みは以前から行われており、本願明細書中、音声信号入力による触覚提示を「音声入力方式」と呼ぶこととする。 In this way, attempts have been made to convert audio signals into tactile stimuli and present them, and in this specification, tactile sensation presentation by audio signal input is referred to as "audio input method".

尚、人体が持つ触覚刺激の機械受容器(人物がもつ力学的な変形や振動の受容器であり、皮膚にあるメルケル触覚盤、マイスナー小体、パチニ小体、毛根終末などの触受容器)の周波数特性は、10Hz~100Hzで敏感となり、その他の周波数域では鈍いことが知られている(例えば、非特許文献5参照)。例えば、映像コンテンツの音声信号のうち200Hzを超える高周波音を触覚刺激の音信号として触覚提示デバイスにそのまま入力しても、その触覚提示デバイスのユーザにとっては振動としてはほとんど知覚できない。 In addition, mechanoreceptors of tactile stimuli possessed by the human body (receptors for mechanical deformation and vibration possessed by the human body, tactile receptors such as Merkel's tactile discs, Meissner's corpuscles, Pacinian corpuscles, and hair root endings in the skin) is known to be sensitive in the range of 10 Hz to 100 Hz and dull in other frequency ranges (see, for example, Non-Patent Document 5). For example, even if a high-frequency sound exceeding 200 Hz in the audio signal of the video content is directly input to the tactile sense presentation device as a tactile stimulus sound signal, the user of the tactile sense presentation device can hardly perceive it as vibration.

特開2002-8063号公報JP-A-2002-8063 特開2002-253718号公報JP-A-2002-253718 特開2020-38440号公報Japanese Patent Application Laid-Open No. 2020-38440 特開2018-187383号公報JP 2018-187383 A 特開2008-22142号公報Japanese Unexamined Patent Application Publication No. 2008-22142 特開平3-102499号公報JP-A-3-102499 特開平6-339576号公報JP-A-6-339576 特開2008-141477号公報JP 2008-141477 A

“Motion History Image”、[online]、[令和4年1月25日検索]、インターネット〈https://www.ece.iastate.edu/~alexs/classes/2007_Spring_575X/slides/09_MotionHistory.pdf〉"Motion History Image", [online], [searched January 25, 2020], Internet <https://www.ece.iastate.edu/~alexs/classes/2007_Spring_575X/slides/09_MotionHistory.pdf> C. N. Ohyo, T. T. Zin, P. Tin., “Skeleton motion history based human action recognition using deep learning”、[online]、[令和4年1月25日検索] 、インターネット〈https://ieeexplore.ieee.org/document/8229448〉C. N. Ohyo, T. T. Zin, P. Tin., “Skeleton motion history based human action recognition using deep learning”, [online], [searched on January 25, 2020], Internet <https://ieeexplore.ieee. org/document/8229448〉 “身体で聴こう音楽会とボディソニックについて”、[online]、[令和4年1月25日検索] 、インターネット〈https://jpn.pioneer/ja/corp/sustainability/karadadekikou/about/〉“Let’s listen to the body through concerts and BODYSONIC”, [online], [searched on January 25, 2020], Internet <https://jpn.pioneer/ja/corp/sustainability/karadadekikou/about/> “Ontenna”、[online]、[令和4年1月25日検索] 、インターネット〈https://ontenna.jp〉“Ontenna”, [online], [searched on January 25, 2020], Internet <https://ontenna.jp> G. A. Gescheide, Stanley J. Bolanowski, K. R. Hardick, “The frequency selectivity of information-processing channels in the tactile sensory system”, Somatosensory & Motor Research, Vol.18, No.3, pp.191-201, 2001.G. A. Gescheide, Stanley J. Bolanowski, K. R. Hardick, “The frequency selectivity of information-processing channels in the tactile sensory system”, Somatosensory & Motor Research, Vol.18, No.3, pp.191-201, 2001.

上述したように、映像コンテンツに連動してユーザに触覚情報を提示する際は、映像解析を行って、触覚刺激の種類やタイミングを判断し、予め用意した触覚刺激を触覚メタデータとして提示する触覚メタデータ方式が有効である。触覚メタデータ方式であれば、例えば映像コンテンツとして競技に関する触覚情報もリアルタイムで、映像と同時に提示でき、競技に係る選手の動きに同期した触覚刺激を効果的に提示できる。 As described above, when presenting tactile information to the user in conjunction with video content, video analysis is performed to determine the type and timing of tactile stimuli, and tactile stimuli prepared in advance are presented as tactile metadata. Metadata method is enabled. With the tactile metadata method, for example, tactile information related to the game can be presented as video content in real time at the same time as the video, and tactile stimulation synchronized with the movements of the athletes involved in the game can be effectively presented.

そこで、任意の映像コンテンツの映像信号のみから、自動、且つリアルタイムで高精度に、物体や人物の動オブジェクトの動きに関する触覚メタデータを生成する技法が望まれる。 Therefore, there is a demand for a technique for automatically generating tactile metadata regarding the movement of a moving object such as an object or a person with high accuracy in real time from only video signals of arbitrary video content.

特に、人物オブジェクトの動きを高精度に検出するために、人物以外の動オブジェクト(例えば、バドミントン競技であればシャトル、ラケット)を参考する技法も考えられるが、参考とする人物以外の動オブジェクトが存在しない競技(例えば、柔道やレスリング等)においても、人物オブジェクトの動きを高精度に検出する技法が望まれる。 In particular, in order to detect the movement of human objects with high accuracy, a technique of referring to moving objects other than humans (for example, shuttlecocks and rackets in the case of badminton) is conceivable. Techniques for detecting movements of human objects with high accuracy are desired even in sports that do not exist (for example, judo, wrestling, etc.).

尚、近年の深層学習技術の発達により、深度センサを用いずに、従来では困難であった深度情報を含まない通常の静止画像から人物の骨格位置を推定することが可能になっているが、これに代表される骨格検出アルゴリズムは基本的に静止画単位で骨格位置を検出するものである。このため、スポーツを撮影する通常のカメラ映像のみから、自動、且つリアルタイムで人物オブジェクト(選手等)の動きに関する触覚メタデータを生成するには、更なる工夫が必要になる。 With the recent development of deep learning technology, it has become possible to estimate the skeletal position of a person from a normal still image that does not contain depth information, without using a depth sensor, which was difficult in the past. A skeleton detection algorithm typified by this basically detects a skeleton position for each still image. For this reason, further ingenuity is required to automatically and in real time generate tactile metadata relating to the movement of human objects (athletes, etc.) from only normal camera images for shooting sports.

ところで、動作認識の機械学習として、旧来の教師あり学習手法であるSVMなどを用いることで高速に動作認識できるものの、近年発展が望ましい深層学習を利用することで、更なる精度向上が期待できる。映像解析に基づく動作認識にはCNNが用いられることが多い。しかし、CNNは静止画像ベースの識別アルゴリズムであり、時間軸が考慮されない。映像シーンの動作内容を理解するには、人物の動きに関する特徴量を扱う必要があるが、静止画には時間軸の情報が含まれないため、CNNの動作内容を高精度な識別は期待できない。 By the way, as machine learning for motion recognition, it is possible to recognize motions at high speed by using SVM, which is a conventional supervised learning method, but further improvement in accuracy can be expected by using deep learning, which is desired to develop in recent years. CNN is often used for action recognition based on video analysis. However, CNN is a static image-based identification algorithm and does not consider the time axis. In order to understand the motion content of a video scene, it is necessary to handle feature values related to human motion, but since still images do not contain information on the time axis, CNN cannot be expected to identify the motion content with high accuracy. .

このため、CNNにより画像から動作を認識する手法として、Motion History Image(MHI)と呼ばれる画像を利用することが考えられる。このMHIを解析することで、 “腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを認識判定することが可能になる。ただし、MHIは人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。例えば、特許文献5に開示されるような、野球映像に対してMotion History Image(MHI)を作成し、投球動作を検出するには、背景に含まれるノイズの影響を抑えるために投手の領域を高精度に検出する必要があり、更に、骨格検出を行うものではないため詳細な動作の認識は困難である。 Therefore, as a method for recognizing motion from images by CNN, it is conceivable to use images called Motion History Images (MHI). By analyzing this MHI, it becomes possible to recognize and determine the basic movements of a person, such as "spread arms," "crouch," and "raise hands." However, since MHI does not measure each part of a person's joints, it is limited to recognizing large movements using the whole body. For example, in order to create a Motion History Image (MHI) for a baseball video and detect a pitching motion as disclosed in Patent Document 5, the pitcher's area is defined to suppress the influence of noise included in the background. It is necessary to detect with high precision, and furthermore, it is difficult to recognize detailed motions because skeleton detection is not performed.

ここで、非特許文献2に開示されるように、骨格検出を行って得られる人物骨格と各骨格を結ぶ接続線を示す画像(ボーン画像)についてMotion History Image(MHI)を生成し、深層学習技術によりカメラ映像から人物の姿勢を計測する、Skeleton motion history Image(Skl MHI)と称される技術により、動作認識の精度向上が実現されるが、より一層の動作認識の精度向上が要望される。 Here, as disclosed in Non-Patent Document 2, a motion history image (MHI) is generated for an image (bone image) showing a human skeleton obtained by performing skeleton detection and a connection line connecting each skeleton, and deep learning is performed. A technology called Skeleton motion history Image (Skl MHI), which measures the posture of a person from camera images, has improved the accuracy of motion recognition, but there is a demand for further improvements in motion recognition accuracy. .

更に、触覚メタデータ方式では、映像上でのイベントの発生と触覚刺激のタイミングが一致していないと違和感を生じさせてしまう。視覚情報と触覚情報が±100msec以内に収まっていないとズレを感じるという報告もなされている。換言すれば、視覚情報と触覚情報が±100msec以内(映像フレームとして、概ね3フレーム以内)に収まっていれば違和感を生じない。また、触覚メタデータ方式における触覚メタデータを基にした音信号は予め用意したものであり、実際の映像コンテンツからの音声信号とは異なる。これに起因して、現実感が失われてしまう場合もある。 Furthermore, in the tactile metadata method, if the timing of the occurrence of an event on the video and the timing of the tactile stimulation do not match, a sense of discomfort is caused. It has also been reported that if the visual information and the tactile information are not within ±100 msec, a discrepancy is felt. In other words, if visual information and tactile information are within ±100 msec (approximately within 3 frames as video frames), no sense of discomfort occurs. Moreover, the sound signal based on the haptic metadata in the haptic metadata method is prepared in advance, and is different from the audio signal from the actual video content. Due to this, a sense of reality may be lost.

そこで、触覚メタデータ方式における触覚メタデータを基にした音信号について、映像信号に対してズレを生じさせることなく現実感を損なうことがないように、臨場感や没入感を向上させる工夫が必要になる。 Therefore, it is necessary to improve the sense of realism and immersion in the sound signal based on the haptic metadata in the haptic metadata method so that there is no deviation from the video signal and the sense of reality is not lost. become.

ところで、上述した「ボディソニック」に代表されるように、映像コンテンツの音声信号を入力とした振動提示を行う音声入力方式が知られている。音声信号も触覚刺激も周波数の近い波であることから、音声信号と触覚信号の親和性は高い。また、別途用意した触覚刺激を提示するメタデータ方式に比べ、音声入力方式は映像の音をそのまま触覚刺激に変えるため、映像との違和感が生じにくく、臨場感や没入感を高めることができる。 By the way, as typified by the above-mentioned "Bodysonic", there is known an audio input method that performs vibration presentation by inputting an audio signal of video content. Since both the audio signal and the tactile stimulus are waves with similar frequencies, the affinity between the audio signal and the tactile signal is high. In addition, compared to the separately prepared metadata method that presents tactile stimuli, the voice input method converts the sound of the video into tactile stimulus as it is, so it is less likely to cause discomfort with the video, and can enhance the sense of presence and immersion.

ただし、非特許文献5にも示されるように、人間は、一般に200Hz以下程度の低い周波数でしか触覚刺激を感じることができないため、入力される音声信号の周波数が高い場合は、適した触覚刺激を提示することができない。例えば、爆発シーンで大きな振動を提示したくとも、爆発の音声が高い周波数であると迫力ある振動を提示できない。或いは視覚障害者が野球の映像を視聴したい場合、ボールがバットに当たるヒット音の周波数は高いため、音声入力方式では触覚刺激がほとんど伝わらない。このように音声入力方式を視覚・聴覚障害者に映像コンテンツの内容を伝える「情報補償」を目的とした場合には、音声入力だけでは映像と触覚刺激との齟齬が生じるケースがある。 However, as shown in Non-Patent Document 5, humans can generally only feel tactile stimulation at low frequencies of about 200 Hz or less. cannot be presented. For example, even if it is desired to present large vibrations in an explosion scene, powerful vibrations cannot be presented if the sound of the explosion has a high frequency. Alternatively, if a visually impaired person wants to watch a baseball video, the sound of the ball hitting the bat has a high frequency, so the audio input method hardly conveys tactile stimulation. In this way, when the audio input method is used for the purpose of "information compensation" that conveys the content of video content to the visually or hearing impaired, there are cases where discrepancies between the video and the tactile stimulation occur with only audio input.

従って、包括的には、触覚メタデータ方式として、映像コンテンツの映像信号のみから、自動、且つリアルタイムで高精度に、物体や人物の動オブジェクトの動きを含む触覚刺激に関する触覚メタデータを生成し、音声入力方式の利点を生かしつつ、当該触覚メタデータを基にした音信号について、映像信号に対してズレを生じさせることなく、臨場感や没入感を向上させるように構成した触覚提示デバイス向けの触覚提示信号を生成する技法が望まれる。 Therefore, comprehensively, as a haptic metadata method, only from the video signal of the video content, haptic metadata related to haptic stimuli including the movement of objects and moving objects of people are generated automatically and with high accuracy in real time, For a tactile presentation device configured to enhance the sense of presence and immersion while taking advantage of the audio input method, without causing any deviation from the video signal for the sound signal based on the tactile metadata. Techniques for generating tactile presentation signals are desired.

本発明の目的は、上述の問題に鑑みて、映像コンテンツの映像信号のみからリアルタイムで高精度に触覚メタデータを自動生成し、当該触覚メタデータを基にした音信号について映像コンテンツの音声信号を利用し映像信号に同期させて触覚提示デバイスを駆動するための触覚提示信号を生成する触覚提示信号生成装置、生成した触覚提示信号を基に触覚提示デバイスを駆動制御する映像触覚連動システム、及びプログラムを提供することにある。 SUMMARY OF THE INVENTION In view of the above-mentioned problems, an object of the present invention is to automatically generate haptic metadata in real time with high accuracy only from a video signal of video content, and to generate an audio signal of the video content for an audio signal based on the haptic metadata. A tactile presentation signal generation device that generates a tactile presentation signal for driving a tactile presentation device in synchronization with a video signal, a video-tactile interlocking system that drives and controls the tactile presentation device based on the generated tactile presentation signal, and a program is to provide

本発明の触覚提示信号生成装置は、映像信号及び音声信号を有する映像コンテンツについて、前記映像コンテンツの映像信号のみからリアルタイムで高精度に触覚メタデータを自動生成し、当該触覚メタデータを基にした音信号について映像コンテンツの音声信号を利用し映像信号に同期させて触覚提示デバイスを駆動するための触覚提示信号を生成する触覚提示信号生成装置であって、前記音声信号から所定周波数以下の低周波音声信号を抽出する低周波音声抽出部と、前記映像信号について現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出して映像解析を行い、一人称視点を基準にした映像の動き、現フレーム画像における物体の動き、及び少なくとも各人物の動オブジェクトの動きのうち1以上に関する情報を個別に示す、所定の触覚提示デバイスを作動させるための触覚メタデータを生成する触覚メタデータ生成部と、各触覚メタデータについて予め定めた触覚刺激に対応する音信号に変換する信号変換部と、前記低周波音声信号と、当該各触覚メタデータを基にした音信号について、それぞれ予め定めた所定値まで個別に利得調整し、前記低周波音声信号に同期させて合成することにより、所定の触覚提示デバイスを駆動するための触覚提示信号を生成する同期合成部と、を備えることを特徴とする。 The tactile presentation signal generation device of the present invention automatically generates tactile metadata in real time and with high precision only from the video signal of the video content for video content having a video signal and an audio signal, and based on the haptic metadata. A tactile sense presentation signal generation device for generating a tactile sense presentation signal for driving a tactile sense presentation device in synchronization with a video signal using an audio signal of video content, wherein the audio signal has a low frequency of a predetermined frequency or less. A low-frequency audio extraction unit for extracting audio signals, and a plurality of frame images including a current frame image and a predetermined number of past frame images are extracted from the video signal, video analysis is performed, and video movement based on the first person viewpoint. , a haptic metadata generator for generating haptic metadata for operating a predetermined haptic presentation device, individually indicating information about one or more of motion of an object in a current frame image and motion of at least a moving object of each person. a signal conversion unit that converts each haptic metadata into a sound signal corresponding to a predetermined haptic stimulus; a synchronous synthesizing unit for generating a tactile presentation signal for driving a predetermined tactile presentation device by individually adjusting the gain to a value and synthesizing the low-frequency audio signal in synchronization with the low-frequency audio signal. .

また、本発明の触覚提示信号生成装置において、前記触覚メタデータ生成部は、前記一人称視点を基準にした映像の動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々を用いたオプティカルフロー計測によりオプティカルフロー画像を生成し、このオプティカルフロー画像を基に一人称視点映像か否かを判定し、一人称視点映像であると判定されたときのみ、そのオプティカルフロー画像から一人称視点を基準にした映像の動きを推定し、一人称視点を基準にした映像の動きを示す少なくとも一人称視点の方向と映像の移動速度を含む触覚メタデータを生成する映像動き認識部を備えることを特徴とする。 Further, in the tactile sense presentation signal generation device of the present invention, the haptic metadata generation unit uses each of the plurality of frame images to generate haptic metadata indicating movement of the video based on the first-person viewpoint. An optical flow image is generated by optical flow measurement, and based on this optical flow image, it is determined whether or not it is a first-person viewpoint video. and a video motion recognition unit that generates tactile metadata including at least the direction of the first-person viewpoint and the moving speed of the video that indicates the motion of the video based on the first-person viewpoint.

また、本発明の触覚提示信号生成装置において、前記触覚メタデータ生成部は、前記現フレーム画像における物体の動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々を用いた隣接フレーム間の差分画像を生成し、この差分画像を基に、現フレーム画像における物体に関する動オブジェクトの検出処理を行い、現フレーム画像における物体の動きが得られたときのみ、その現フレーム画像における物体の動きを示す少なくとも各物体の識別、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む触覚メタデータを生成する物体動き認識部を備えることを特徴とする。 Further, in the tactile sense presentation signal generation device of the present invention, the haptic metadata generation unit generates tactile sense metadata representing movement of an object in the current frame image by using adjacent frame images using each of the multiple frame images. Based on this difference image, detection processing of moving objects related to the object in the current frame image is performed. An object motion recognition unit that generates haptic metadata including at least the identification of each object exhibiting motion, the size of each object, the speed of each object relative to the background, and the distance between objects in the current frame image. .

また、本発明の触覚提示信号生成装置において、前記触覚メタデータ生成部は、前記少なくとも各人物の動オブジェクトの動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成するとともに、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成し、前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第2の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成し、前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる少なくとも各人物の動オブジェクトの動きに関する情報を検出し、前記現フレーム画像に対応して、当該少なくとも各人物の動オブジェクトの動きに関する情報を含む触覚メタデータを生成するイベント検出部を備えることを特徴とする。 Further, in the tactile sense presentation signal generation device of the present invention, the haptic metadata generation unit performs skeleton detection for each of the plurality of frame images in order to generate haptic metadata indicating movement of the moving object of at least each person. Based on an algorithm, a first skeleton coordinate set for each person object is generated, and a search range is variably set based on the first skeleton coordinate set to determine the position and size of the skeleton of each person object and its surrounding image. A person object is identified by extracting information, a second set of skeletal coordinates assigned with a person ID is generated, and the second set of skeletal coordinates in each of the plurality of frame images is generated based on the current frame image. Based on this, a single skeletal trajectory feature image showing only the direction of movement of each identified human skeleton is generated, and a convolutional neural network that receives the skeletal trajectory feature image as an input recognizes a specific motion of the person and performs a predetermined motion. Event detection for detecting information about movement of at least each person's moving object that activates a tactile presentation device, and generating haptic metadata including information about the movement of at least each person's moving object corresponding to the current frame image. A part is provided.

また、本発明の触覚提示信号生成装置において、前記イベント検出部は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した1枚の画像とすることを特徴とする。 Further, in the tactile sensation presentation signal generation device of the present invention, the event detection unit draws, as the skeleton trajectory feature image, a trajectory that is connected for each person's skeletal coordinates in the plurality of frame images. , and one image generated by drawing with decreasing or increasing luminance toward the past.

また、本発明の触覚提示信号生成装置において、前記イベント検出部は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した1枚の画像とすることを特徴とする。 Further, in the tactile sensation presentation signal generation device of the present invention, the event detection unit may share the skeleton coordinates of each person in the plurality of frame images as the skeleton trajectory characteristic image, or distinguish between the skeleton coordinates of each person in the plurality of frame images. The feature is that each coordinate is color-coded, and the motion of each person's skeleton coordinate is drawn so as to be time-serially gradated in units of frames to create one image.

また、本発明の触覚提示信号生成装置において、前記イベント検出部は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする。 Further, in the tactile sense presentation signal generation device of the present invention, the event detection unit limits the search range to a maximum person search range surrounding the entire human skeleton, and at least a predetermined region of the human skeleton as an attention search range. and determining the search range so as to include at least the attention search range based on the state transition estimated value of the human skeleton obtained by the state estimation algorithm, and identifying the person object. It is characterized by having a means for performing processing for processing.

また、本発明の触覚提示信号生成装置において、前記イベント検出部は、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を備え、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする。 Further, in the tactile sensation presentation signal generation device of the present invention, the event detection unit detects a moving object based on a difference image between adjacent frames using each of the plurality of frame images, and detects the moving object detected from each difference image. A moving object other than a person is selected by comparing with the skeleton trajectory feature image showing only the direction of movement of each identified human skeleton, and the coordinate position and size obtained from each difference image are selected for the moving object other than the person. A moving object detecting means for generating a moving object trajectory image connected with movement direction as an element is provided, and the moving object trajectory image is added to the skeletal trajectory feature image showing only the movement direction of each of the identified human skeletons. It is characterized by recognizing a specific action of a person by a convolutional neural network that receives an input obtained by synthesizing

また、本発明の映像触覚連動システムは、本発明の触覚提示信号生成装置と、触覚刺激を提示する所定の触覚提示デバイスと、前記触覚提示信号生成装置から得られる触覚提示信号を基に、予め定めた駆動基準データを参照し、前記所定の触覚提示デバイスを駆動するよう制御する制御ユニットと、を備えることを特徴とする。 Further, the video-haptic interlocking system of the present invention provides a tactile presentation signal generation device of the present invention, a predetermined tactile presentation device that presents a tactile stimulus, and a tactile presentation signal obtained from the tactile presentation signal generation device. and a control unit that refers to determined drive reference data and controls the predetermined tactile presentation device to be driven.

更に、本発明のプログラムは、コンピュータを、本発明の触覚提示信号生成装置として機能させるためのプログラムとして構成する。 Furthermore, the program of the present invention constitutes a program for causing a computer to function as the tactile presentation signal generation device of the present invention.

本発明によれば、映像コンテンツの映像信号のみから、自動、且つリアルタイムで高精度に、物体や人物の動オブジェクトの動きを含む触覚刺激に関する触覚メタデータを生成し、音声入力方式の利点を生かしつつ、当該触覚メタデータを基にした音信号について、映像信号に対してズレを生じさせることなく、臨場感や没入感を向上させるように構成した触覚提示デバイス向けの触覚提示信号を生成することができる。特に、映像コンテンツの音声信号ベースの恒常的な触覚刺激に加え、映像コンテンツの映像信号ベースで物体や人物の動オブジェクトの動きを含む触覚刺激に関する触覚メタデータを生成し単発的な触覚刺激を提示可能とすることで、目や耳が不自由な方への情報補償を実現できる。また、本発明によれば、視覚・聴覚障害者はもちろん、一般の健常者にとっても映像視聴の臨場感や没入感を提供し映像視聴体験を向上させることができる。特に、スポーツ映像視聴に際し、プレーの種類、タイミング、状況などに関する触覚刺激を提供することで、視覚に障害を持つ方々にもスポーツの状況を伝えることが可能となる。 According to the present invention, tactile metadata related to tactile stimuli including the movement of moving objects of objects and people can be automatically generated in real time and with high accuracy only from the video signal of the video content, and the advantages of the voice input method can be utilized. and generating a tactile presentation signal for a tactile presentation device that is configured to improve presence and immersion in a sound signal based on the tactile metadata without causing deviation from a video signal. can be done. In particular, in addition to constant tactile stimulation based on audio signals of video content, haptic metadata related to tactile stimulation including movement of objects and moving objects of people is generated based on video signals of video content, and occasional tactile stimulation is presented. By making it possible, it is possible to realize information compensation for those who are visually or hearing impaired. Moreover, according to the present invention, it is possible to improve the video viewing experience by providing not only the visually and hearing impaired but also the general able-bodied people with a sense of realism and immersion in video viewing. In particular, by providing tactile stimulation related to the type, timing, and situation of play when watching sports videos, it is possible to convey the sports situation to people with visual impairments.

本発明による一実施形態の触覚提示信号生成装置を備える映像触覚連動システムの概略構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a video-haptic interlocking system including a haptic presentation signal generation device according to one embodiment of the present invention; FIG. 本発明による一実施形態の触覚提示信号生成装置における触覚メタデータ生成部の処理例を示すフローチャートである。4 is a flow chart showing a processing example of a haptic metadata generation unit in the haptic presentation signal generation device of one embodiment according to the present invention. 本発明による一実施形態の触覚提示信号生成装置における映像視点推定部によるオプティカルフロー計測に基づいた映像の動きに係る移動速度の推定例を示す例である。FIG. 10 is an example showing an example of estimating a movement speed related to motion of a video image based on optical flow measurement by the video viewpoint estimation unit in the tactile sense presentation signal generation device according to one embodiment of the present invention; FIG. 本発明による一実施形態の触覚提示信号生成装置における物体検出部による物体動きの推定例を示す例である。It is an example showing an estimation example of object motion by an object detection unit in the tactile sense presentation signal generation device of one embodiment according to the present invention. 本発明による一実施形態の触覚提示信号生成装置におけるイベント検出部の人物骨格抽出処理に関する説明図である。FIG. 10 is an explanatory diagram relating to human skeleton extraction processing of the event detection unit in the tactile sense presentation signal generation device of one embodiment according to the present invention; (a)は1フレーム画像を例示する図であり、(b)は本発明による一実施形態の触覚提示信号生成装置における1フレーム画像における人物骨格抽出例を示す図である。(a) is a diagram illustrating one frame image, and (b) is a diagram illustrating an example of human skeleton extraction in one frame image in the tactile presentation signal generation device of one embodiment according to the present invention. (a),(b)は、それぞれ本発明による一実施形態の触覚提示信号生成装置における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。8A and 8B are diagrams each showing a processing example of a search range of a person object in relation to human skeleton extraction processing in the tactile sense presentation signal generation device according to one embodiment of the present invention; FIG. (a)は、本発明に係る骨格軌跡特徴画像(JTI:Joint Trajectory Image)の画像例を示す図であり、(b)は、その軌跡特徴画像(JTI)の説明図である。(a) is a diagram showing an image example of a skeletal trajectory feature image (JTI: Joint Trajectory Image) according to the present invention, and (b) is an explanatory diagram of the trajectory feature image (JTI). (a)は1フレーム画像例を模擬的に示した図であり、(b)は従来技術のボーン画像例、(c)は従来技術のSkl MHI(Skeleton Motion History Image)の画像例、(d)は本発明に係る骨格軌跡特徴画像(JTI)の画像例を示す図である。(a) is a diagram schematically showing an example of one frame image, (b) is an example of a bone image of the prior art, (c) is an example of a Skl MHI (Skeleton Motion History Image) of the prior art, (d) ) is a diagram showing an image example of a skeletal trajectory feature image (JTI) according to the present invention. 従来技術のボーン画像、従来技術のSkl MHI、及び本発明に係る骨格軌跡特徴画像(JTI)の人物動きの検出精度の比較評価を示す図である。FIG. 2 is a diagram showing a comparative evaluation of human motion detection accuracy of a prior art bone image, a prior art Skl MHI, and a skeletal trajectory feature image (JTI) according to the present invention; 本発明による一実施形態の映像触覚連動システムにおける制御ユニット及び触覚提示デバイスの概略構成を示すブロック図である。1 is a block diagram showing a schematic configuration of a control unit and a tactile sense presentation device in a video-haptic interlocking system according to one embodiment of the present invention; FIG.

(システム構成)
以下、図面を参照して、本発明による一実施形態の触覚提示信号生成装置1を備える映像触覚連動システム10について詳細に説明する。図1は、本発明による一実施形態の触覚提示信号生成装置1を備える映像触覚連動システム10の概略構成を示すブロック図である。
(System configuration)
A video-haptic interlocking system 10 including a haptic presentation signal generation device 1 according to an embodiment of the present invention will be described in detail below with reference to the drawings. FIG. 1 is a block diagram showing a schematic configuration of a video-haptic interlocking system 10 including a haptic presentation signal generation device 1 according to one embodiment of the present invention.

図1に示す触覚提示信号生成装置1は、カメラや記録装置等の映像コンテンツ出力装置2から出力される映像コンテンツの映像信号及び音声信号を入力し、音声入力方式と触覚メタデータ方式とを組み合わせ、映像信号に適した触覚刺激について触覚提示デバイス5を介してユーザに提供するために、映像コンテンツの映像信号のみからリアルタイムで高精度に触覚メタデータを自動生成し、当該触覚メタデータを基にした音信号について音声信号を利用し映像信号に同期させて触覚提示デバイスを駆動するための触覚提示信号を生成する装置として構成される。 A haptic presentation signal generation device 1 shown in FIG. 1 receives video and audio signals of video content output from a video content output device 2 such as a camera or recording device, and combines the audio input method and the haptic metadata method. , in order to provide the user with tactile stimulation suitable for the video signal via the tactile presentation device 5, tactile metadata is automatically generated in real time with high precision only from the video signal of the video content, and based on the tactile metadata. It is configured as a device for generating a tactile sense presentation signal for driving a tactile sense presentation device in synchronization with a video signal by using an audio signal of the generated sound signal.

本例では、映像コンテンツの音声信号については、例えば22.2ch等の音声信号とし、この音声信号から所定周波数以下の低周波音声信号を抽出し触覚刺激用に用いる。また、映像コンテンツの映像信号については、映像の特定のシーンに対して触覚メタデータを自動生成し、当該触覚メタデータを予め用意した触覚刺激を示す音信号に変換し触覚刺激用に用いる。また、図1に示す触覚提示信号生成装置1では、当該低周波音声信号と当該触覚メタデータを基にした音信号とをそれぞれ個別に利得調整し同期させて合成することにより、触覚提示デバイスを駆動するための触覚提示信号を生成する。これにより、映像と違和感のない音声入力による触覚刺激を提供しながら、特定のシーンで迫力ある刺激に変化させることができる。この触覚提示信号生成装置1によって生成する触覚提示信号は、既に規格化されているオブジェクトベース音響方式の枠組みにも適合するため、将来的には触覚メタデータの配信手法の標準化にも寄与できる。 In this example, the audio signal of the video content is, for example, a 22.2ch audio signal, and a low-frequency audio signal having a predetermined frequency or lower is extracted from this audio signal and used for tactile stimulation. As for the video signal of the video content, haptic metadata is automatically generated for a specific scene of the video, and the haptic metadata is converted into a sound signal indicating a haptic stimulus prepared in advance and used for the haptic stimulus. Further, in the tactile sense presentation signal generation apparatus 1 shown in FIG. 1, the gain of the low-frequency audio signal and the sound signal based on the haptic metadata are individually adjusted, synchronized, and synthesized, thereby forming a tactile sense presentation device. Generate a tactile presentation signal for driving. As a result, it is possible to change the stimulus to a powerful stimulus in a specific scene while providing a tactile stimulus by voice input that does not feel out of place with video. Since the haptic presentation signal generated by this haptic presentation signal generation device 1 conforms to the framework of the already standardized object-based acoustic system, it can contribute to the standardization of haptic metadata distribution methods in the future.

より具体的に、図1に示す映像触覚連動システム10は、触覚提示信号生成装置1と、制御ユニット4と、触覚提示デバイス5と、を備える。 More specifically, the video-haptic interlocking system 10 shown in FIG.

触覚提示信号生成装置1は、詳細については後述するが、映像コンテンツ出力装置2から映像信号及び音声信号を入力し、入力された音声信号からは低周波音声信号を抽出し、入力された映像信号からは映像解析を行って自動生成した触覚メタデータを音信号に変換し、当該低周波音声信号と当該触覚メタデータを基にした音信号とをそれぞれ個別に利得調整し同期させて合成することにより、触覚提示デバイスを駆動するための触覚提示信号を自動生成する。 Although the details will be described later, the haptic presentation signal generation device 1 receives a video signal and an audio signal from the video content output device 2, extracts a low-frequency audio signal from the input audio signal, and generates the input video signal. , converts automatically generated haptic metadata by video analysis into sound signals, and synthesizes the low-frequency audio signal and the sound signal based on the haptic metadata individually by adjusting the gain and synchronizing them. automatically generates a tactile presentation signal for driving the tactile presentation device.

制御ユニット4は、触覚提示信号生成装置1によって生成した触覚提示信号を基に触覚提示デバイス5を駆動制御する。 The control unit 4 drives and controls the tactile presentation device 5 based on the tactile presentation signal generated by the tactile presentation signal generation device 1 .

触覚提示デバイス5は、人間に対して触覚刺激を提示するものであれば任意の形態とすることができる。本例の触覚提示デバイス5は、制御ユニット4によって個別に駆動制御される複数のアクチュエーターを有する。ただし、別例として、触覚提示デバイス5は、1つのアクチュエーターを有するものとし、制御ユニット4によって個別に駆動制御される複数の触覚提示デバイス5としてもよい。 The tactile sense presentation device 5 can be of any form as long as it presents a tactile sense stimulus to humans. The tactile presentation device 5 of this example has a plurality of actuators that are individually driven and controlled by the control unit 4 . However, as another example, the tactile presentation device 5 may have one actuator and may be a plurality of tactile presentation devices 5 individually driven and controlled by the control unit 4 .

より具体的な触覚提示デバイス5の例として、例えば「いす型触覚デバイス」とすることができ、この「いす型触覚デバイス」に関する技術も公開されている(例えば、技研公開2021、“未来の没入型VRディスプレー”、[online]、[令和4年1月25日検索] 、インターネット〈https://www.nhk.or.jp/strl/open2021/tenji/5/index.html〉参照)。この技法は、フレキシブルディスプレイにより180度の視野角に表示したトラムの映像信号に連動する音声信号を振動に変えて、「いす型触覚デバイス」により触覚刺激を提示する構成となっている。この技法では、一人称映像と座面からの振動刺激により、高い没入感を感じさせることが可能となっている。 A more specific example of the tactile presentation device 5 can be, for example, a “chair-type tactile device”, and the technology related to this “chair-type tactile device” has also been published (for example, STRL Open 2021, “Future Immersion Type VR display”, [online], [searched on January 25, 2020], Internet <https://www.nhk.or.jp/strl/open2021/tenji/5/index.html>). In this technique, a tactile stimulus is presented by a "chair-shaped tactile device" by converting an audio signal linked to a video signal of a tram displayed at a viewing angle of 180 degrees on a flexible display into vibration. With this technique, it is possible to create a highly immersive experience through first-person images and vibration stimulation from the seat.

また、触覚提示デバイス5の例として、「キューブ型触覚デバイス」とすることができ、この「キューブ型触覚デバイス」に関する技術も公開されている(例えば、技研公開2021、“触覚情報提示技術”、[online]、[令和4年1月25日検索] 、インターネット〈https://www.nhk.or.jp/strl/open2021/tenji/9-3/index.html〉参照)。この「キューブ型触覚デバイス」では、触覚メタデータ方式の例ではあるが、ユーザが持つキューブ型デバイスでショットタイミングとバウンドタイミングを振動で伝えることで、卓球のラリーの状況を体感として分かりやすく表現できるものとなっている。 In addition, as an example of the tactile sense presentation device 5, it is possible to use a “cube type haptic device”, and technology related to this “cube type haptic device” has been published (for example, STRL Open 2021, “Tactile Information Presentation Technology”, [online], [searched on January 25, 2020], Internet <https://www.nhk.or.jp/strl/open2021/tenji/9-3/index.html>). This "cube-shaped tactile device" is an example of the tactile metadata method, but by transmitting the shot timing and bounce timing with the vibration of the cube-shaped device held by the user, it is possible to express the situation of the table tennis rally as a bodily sensation in an easy-to-understand manner. It is a thing.

また、将来的に、触覚情報を用いた放送の実現にあたって、図1に示す映像触覚連動システム10をオブジェクトベース音響方式へ適用することもできる。オブジェクトベース音響方式は、番組制作現場から音の素材と、それらの構成や再生位置などの情報(音響メタデータ)を家庭(受信側の宅内装置)へ伝送し、各テレビ受信機で目的に合わせて合成することで、番組の音を完成させる方式である(例えば、技研公開2019、“オブジェクトベース音響による次世代音声サービス”、[online]、[令和4年1月25日検索] 、インターネット〈https://www.nhk.or.jp/strl/open2019/tenji/15.html〉参照)。オブジェクトベース音響の時系列の表現形式についてはITU-R(国際電気通信連合 無線通信部門)で、伝送方式についてはSMPTE(米国映画テレビ技術者協会)で国際標準化が進められており、これらの技術が世界的に広く利用できる環境が整いつつある。 Further, in the future, in realizing broadcasting using tactile information, the video-tactile sense interlocking system 10 shown in FIG. 1 can be applied to an object-based sound system. In the object-based audio system, sound materials and information such as their structure and playback position (acoustic metadata) are transmitted from the program production site to the home (in-home equipment on the receiving side), and each TV receiver can perform It is a method to complete the sound of the program by synthesizing it with <https://www.nhk.or.jp/strl/open2019/tenji/15.html>). ITU-R (International Telecommunication Union Radiocommunication Sector) is working on the time-series representation format of object-based sound, and SMPTE (Society of Motion Picture and Television Engineers) is working on international standardization of transmission methods. An environment is being established in which it can be widely used around the world.

このようなオブジェクトベース音響方式では、送信装置から素材の音を音声チャンネル毎に収録して受信側の宅内装置に送信し、受信側の宅内装置で自由にレンダリングすることを想定している。より具体的には、オブジェクトベース音響方式の送信装置側では、触覚メタデータを触覚刺激用の音声波形データの信号(以下、「音信号」とも称する。)に変換して特定の音声チャンネルに割り当て、受信側の宅内装置に送信する。受信側の宅内装置では、レンダラーで当該音信号を選択又は音源調整し、触覚提示デバイスを駆動制御することで、受信側の宅内装置の利用者に対して触覚情報を提示することが可能となる。この場合の触覚提示デバイスはアクチュエーターとして機能するスピーカに相当し、オブジェクトベース音響方式の映像コンテンツに適した触覚情報を提供できる。受信側の宅内装置として携帯電話などのスピーカ数(アクチュエーター数)が少ない装置を利用する場合にも、通常の音声信号と同様に当該音信号をレンダラーによってミキシングすることで、適切な触覚刺激を提示できる。 In such an object-based audio method, it is assumed that the sound of the material is recorded for each audio channel from the transmitting device, transmitted to the receiving-side in-home device, and freely rendered by the receiving-side in-home device. More specifically, on the object-based audio transmission device side, the haptic metadata is converted into a signal of audio waveform data for haptic stimulation (hereinafter also referred to as a "sound signal") and assigned to a specific audio channel. , to the receiving customer premises equipment. In the in-home device on the receiving side, the renderer selects the sound signal or adjusts the sound source, and drives and controls the tactile presentation device, thereby making it possible to present tactile information to the user of the in-home device on the receiving side. . The tactile presentation device in this case corresponds to a speaker functioning as an actuator, and can provide tactile information suitable for video content of the object-based audio method. Even if a device with a small number of speakers (actuators), such as a mobile phone, is used as the receiving device, the appropriate tactile stimulus is presented by mixing the sound signal with the renderer in the same way as a normal audio signal. can.

まず、映像コンテンツ出力装置2が出力する映像コンテンツは任意であり、リアルタイムで撮影されたものや収録番組として構成され、触覚提示信号生成装置1への出力に対して予め定めた遅延処理(例えば、触覚提示信号生成装置1が扱う映像信号のTフレーム分)を経てディスプレイ3に表示され、ユーザによって視覚されるものとする。 First, the video content output by the video content output device 2 is arbitrary, and is configured as a video shot in real time or a recorded program, and a predetermined delay processing (for example, T frames of the video signal handled by the tactile sense presentation signal generation device 1) are displayed on the display 3 and visually recognized by the user.

本実施形態では、説明の便宜上、映像コンテンツ出力装置2が放送設備側の送信装置内に設けられ、触覚提示信号生成装置1、制御ユニット4、触覚提示デバイス5、及びディスプレイ3が受信側の宅内装置として構成され、映像コンテンツ出力装置2及び触覚提示信号生成装置1間は、放送又は通信で接続されることを想定して説明する。ただし、図1に示す映像触覚連動システム10を、オブジェクトベース音響方式に適用するときは、映像コンテンツ出力装置2及び触覚提示信号生成装置1を備える送信装置とし、制御ユニット4、触覚提示デバイス5、及びディスプレイ3を備える受信側の宅内装置として構成すればよい。オブジェクトベース音響方式における受信側の宅内装置は、携帯電話等の移動端末うで構成することも想定されている。この場合、送信装置及び受信側の宅内装置間は双方向通信で通信接続し、送信装置から触覚提示信号を特定の音声チャンネルに割り当て、受信側の宅内装置に送信する。また、この場合の受信側の宅内装置では、制御ユニット4の外部(又は内部でもよい)に設けたレンダラー(図示略)で例えば視点に合わせて当該触覚提示信号を構成する素材の選択又は音量調整を行い、触覚提示デバイス5を駆動制御する構成とする。 In this embodiment, for convenience of explanation, the video content output device 2 is provided in the transmission device on the broadcasting facility side, and the tactile presentation signal generation device 1, the control unit 4, the tactile presentation device 5, and the display 3 are provided in the home on the receiving side. It is assumed that the video content output device 2 and the tactile presentation signal generation device 1 are connected by broadcasting or communication. However, when the video-haptic interlock system 10 shown in FIG. and a receiving-side in-home device including the display 3. FIG. In the object-based audio system, it is also assumed that the receiving-side in-home device is configured by a mobile terminal such as a mobile phone. In this case, the transmitting device and the in-home device on the receiving side are connected by two-way communication, and the transmitting device assigns the tactile sense presentation signal to a specific audio channel and transmits it to the in-home device on the receiving side. In this case, the in-home device on the receiving side selects the material constituting the tactile sense presentation signal or adjusts the volume according to the viewpoint, for example, using a renderer (not shown) provided outside (or inside) the control unit 4. is performed, and the tactile sense presentation device 5 is driven and controlled.

以下、図1に示す触覚提示信号生成装置1について詳細に説明する。触覚提示信号生成装置1は、低周波音声抽出部11、触覚メタデータ生成部12、信号変換部13、触覚刺激音声データデータベース(DB)14、及び同期合成部15を備える。 Hereinafter, the tactile sense presentation signal generation device 1 shown in FIG. 1 will be described in detail. The haptic presentation signal generation device 1 includes a low-frequency audio extraction unit 11 , a haptic metadata generation unit 12 , a signal conversion unit 13 , a haptic stimulation audio data database (DB) 14 , and a synchronous synthesis unit 15 .

低周波音声抽出部11は、映像コンテンツ出力装置2から入力された音声信号から所定周波数以下(本例では200Hz以下)の低周波音声信号を抽出し、同期合成部15に出力する。 The low-frequency audio extraction unit 11 extracts a low-frequency audio signal having a predetermined frequency or less (200 Hz or less in this example) from the audio signal input from the video content output device 2 and outputs the low-frequency audio signal to the synchronous synthesizing unit 15 .

尚、低周波音声抽出部11は、入力された音声信号が予め200Hz以下の低周波だけを抽出可能な音声信号があればその選択処理で低周波音声信号を抽出することができる。例えば、22.2chの8K映像では、0.2chにLFE(Low Frequency Effect)と呼ばれる120Hz以下の低周波音声が用いられている。このLFEをそのまま利用しても、振動に適した触覚刺激となる。或いは、低周波音声抽出部11は、入力された音声信号が可聴域内で混合された音声信号であれば、デジタルフィルタ処理で抽出するか、イコライジング処理で低周波の音声信号を強調し高周波部分を抑えるようにして、実質的に低周波音声信号を抽出できる。 The low-frequency audio extraction unit 11 can extract the low-frequency audio signal by selection processing if the input audio signal has an audio signal from which only low frequencies of 200 Hz or less can be extracted in advance. For example, in 8K video of 22.2ch, low frequency sound of 120 Hz or less called LFE (Low Frequency Effect) is used in 0.2ch. Even if this LFE is used as it is, it becomes a tactile stimulation suitable for vibration. Alternatively, if the input audio signal is a mixed audio signal within the audible range, the low-frequency audio extraction unit 11 extracts the audio signal by digital filtering, or emphasizes the low-frequency audio signal by equalizing and removes the high-frequency part. By suppressing the noise, it is possible to extract a substantially low-frequency audio signal.

触覚メタデータ生成部12は、映像コンテンツ出力装置2から入力された映像コンテンツの映像信号について現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出して映像解析を行い、一人称視点を基準にした映像の動き、現フレーム画像における物体の動き、及び少なくとも各人物の動オブジェクトの動きのうち1以上に関する情報を含む、所定の触覚提示デバイスを作動させるための触覚メタデータを生成する機能部であり、複数フレーム抽出部121、映像視点推定部122、物体検出部123、及び、イベント検出部124を備える。 The haptic metadata generation unit 12 extracts a plurality of frame images including a current frame image and a predetermined number of past frame images from the video signal of the video content input from the video content output device 2, performs video analysis, and performs video analysis. generating haptic metadata for actuating a given haptic presentation device, including information about one or more of motion of a video relative to , motion of an object in a current frame image, and motion of at least each person's moving object It is a functional unit and includes a multiple frame extraction unit 121 , a video viewpoint estimation unit 122 , an object detection unit 123 and an event detection unit 124 .

複数フレーム抽出部121は、映像コンテンツ出力装置2から入力された映像コンテンツの映像信号について、現フレーム画像とT(Tは1以上の整数)フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出し、映像視点推定部12、物体検出部123、及び、イベント検出部124に出力する。 The multi-frame extraction unit 121 extracts a multi-frame image including a current frame image and T (T is an integer equal to or greater than 1) frames of past frame images from the video signal of the video content input from the video content output device 2. and output to the video viewpoint estimation unit 12 , the object detection unit 123 , and the event detection unit 124 .

映像視点推定部12は、視点推定部1221、映像動き認識部1222、及び第1のメタデータ生成部1223を備える。 The video viewpoint estimation unit 12 includes a viewpoint estimation unit 1221 , a video motion recognition unit 1222 and a first metadata generation unit 1223 .

視点推定部1221は、当該複数フレーム画像の各々を用いたオプティカルフロー計測によりオプティカルフロー画像を生成し、このオプティカルフロー画像を基に一人称視点映像か否かを判定し、一人称視点映像であるか否かを示す旨とオプティカルフロー画像を映像動き認識部1222に出力する。 The viewpoint estimation unit 1221 generates an optical flow image by optical flow measurement using each of the plurality of frame images, determines whether or not it is a first-person viewpoint video based on this optical flow image, and determines whether or not it is a first-person viewpoint video. and the optical flow image are output to the video motion recognition unit 1222 .

映像動き認識部1222は、視点推定部1221から得られる判定結果を基に、一人称視点映像であると判定されたときはそのオプティカルフロー画像から一人称視点を基準にした映像の動き(少なくとも一人称視点の方向と映像の移動速度を含む。)を推定し、その推定結果を第1のメタデータ生成部1223に出力し、一人称視点映像でないと判定されたときはその旨を第1のメタデータ生成部1223に出力する。 Based on the determination result obtained from the viewpoint estimating unit 1221, the video motion recognition unit 1222, when the video is determined to be the first-person viewpoint video, recognizes the motion of the video based on the first-person viewpoint from the optical flow image (at least the motion of the first-person viewpoint). including the direction and moving speed of the video), outputs the estimation result to the first metadata generation unit 1223, and when it is determined that the video is not the first-person viewpoint video, the first metadata generation unit 1223 1223 output.

第1のメタデータ生成部1223は、映像動き認識部1222から得られる推定結果として一人称視点を基準にした映像の動き(少なくとも一人称視点の方向と映像の移動速度を含む。)が得られたときのみ、その一人称視点を基準にした映像の動きを示す触覚メタデータを生成し、フレーム単位で信号変換部13に出力する。 When the first metadata generation unit 1223 obtains the motion of the video based on the first-person viewpoint (including at least the direction of the first-person viewpoint and the movement speed of the video) as an estimation result obtained from the video motion recognition unit 1222, Only, haptic metadata indicating the motion of the video based on the first-person viewpoint is generated and output to the signal conversion unit 13 in units of frames.

例えば、映像視点推定部12において、処理対象の映像コンテンツの映像信号が、カメラによって動画撮影された車両の運転手から見た風景を示すものであれば、そのオプティカルフロー画像から一人称視点映像であるか否かを解析することができ、映像の動き(一人称視点の方向と映像の移動速度)を推定した触覚メタデータを生成することができる。 For example, in the video viewpoint estimating unit 12, if the video signal of the video content to be processed indicates the scenery seen by the driver of the vehicle captured by the video camera, it is the first person viewpoint video from the optical flow image. It is possible to analyze whether or not it is, and to generate haptic metadata that estimates the movement of the image (the direction of the first-person viewpoint and the moving speed of the image).

物体検出部123は、動オブジェクト検出部1231、物体動き認識部1232、及び第2のメタデータ生成部1233を備える。 The object detection unit 123 includes a moving object detection unit 1231 , an object motion recognition unit 1232 and a second metadata generation unit 1233 .

動オブジェクト検出部1231は、当該複数フレーム画像の各々を用いた隣接フレーム間の差分画像を生成し、この差分画像を基に、現フレーム画像における物体(人物を含む)に関する動オブジェクトの検出処理を行い、現フレーム画像における物体(人物を含む)の検出の有無を示す検出結果と現フレーム画像を映像動き認識部1222に出力する。 The moving object detection unit 1231 generates a difference image between adjacent frames using each of the multiple frame images, and based on this difference image, detects a moving object related to an object (including a person) in the current frame image. Then, a detection result indicating presence or absence of detection of an object (including a person) in the current frame image and the current frame image are output to the video motion recognition unit 1222 .

物体動き認識部1232は、動オブジェクト検出部1231から得られる検出結果として現フレーム画像における一以上の物体の検出が得られたときは、現フレーム画像における物体(人物を含む)の動き(少なくとも各物体の物体ID(識別子)、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む。)を算出し、その算出結果を第2のメタデータ生成部1233に出力し、一以上の物体の検出がないときはその旨を第2のメタデータ生成部1233に出力する。尚、物体動き認識部1232は、現フレーム画像における一以上の物体の検出が得られたときは、イベント検出部124における骨格軌跡特徴画像生成部1243に対しても、現フレーム画像における物体(人物を含む)の動き(少なくとも各物体の物体ID(識別子)、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む。)の算出結果を出力する。 When the detection result obtained from the moving object detection unit 1231 is detection of one or more objects in the current frame image, the object movement recognition unit 1232 recognizes the movement of the object (including the person) in the current frame image (at least each object ID (identifier) of the object, size of each object, relative speed of each object with respect to the background, and distance between objects in the current frame image), and the calculation result is sent to the second metadata generation unit 1233 , and when one or more objects are not detected, that effect is output to the second metadata generation unit 1233 . When one or more objects are detected in the current frame image, the object motion recognition unit 1232 also requests the skeleton trajectory feature image generation unit 1243 in the event detection unit 124 to detect the object (person) in the current frame image. ) (including at least the object ID (identifier) of each object, the size of each object, the relative speed of each object with respect to the background, and the distance between objects in the current frame image).

第2のメタデータ生成部1233は、物体動き認識部1232から得られる検出結果として現フレーム画像における物体(人物を含む)の動き(少なくとも各物体の物体ID(識別子)、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む。)が得られたときのみ、その現フレーム画像における物体(人物を含む)の動きを示す触覚メタデータを生成し、フレーム単位で信号変換部13に出力する。 The second metadata generation unit 1233 generates the detection result obtained from the object motion recognition unit 1232 as the motion of the object (including the person) in the current frame image (at least the object ID (identifier) of each object, the size of each object, each Only when the relative velocity of the object with respect to the background and the distance between the objects in the current frame image are obtained, haptic metadata indicating the movement of the object (including the person) in the current frame image is generated, and the frame It outputs to the signal converter 13 in units.

例えば、物体検出部123において、処理対象の映像コンテンツの映像信号が、カメラによって動画撮影された“鳥”の飛行を示すものであれば、隣接フレーム間の差分画像を基に現フレーム画像における“鳥”の検出を行うことができ、 各“鳥”のサイズ、各“鳥”の背景に対する相対速度、及び現フレーム画像における“鳥”間の距離を算出し、“鳥”の背景に対する相対速度から、各“鳥”の動き、或いは“鳥”の全体の動きに対して相対的な“風”の動きを表現した触覚メタデータを生成することができる。 For example, in the object detection unit 123, if the video signal of the video content to be processed indicates the flight of a “bird” captured by a camera as a moving image, the difference image between the adjacent frames is used as the basis of the difference image between the adjacent frames. Birds can be detected, the size of each bird, the relative speed of each bird to the background, and the distance between birds in the current frame image can be calculated, and the relative speed of the birds to the background , haptic metadata can be generated that describe the movement of each "bird" or the movement of the "wind" relative to the overall movement of the "birds".

イベント検出部124は、人物骨格抽出部1241、人物識別部1242、骨格軌跡特徴画像生成部1243、人物動作認識部1244、及び第3のメタデータ生成部1245を備える。 The event detection unit 124 includes a human skeleton extraction unit 1241 , a person identification unit 1242 , a skeleton trajectory feature image generation unit 1243 , a human motion recognition unit 1244 and a third metadata generation unit 1245 .

人物骨格抽出部1241は、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクト(以下、単に「人物」とも称する。)の骨格座標集合P (n:検出人数、b:骨格ID)を生成し、現フレーム画像を含む当該複数フレーム画像とともに、人物識別部1242に出力する。 The human skeleton extraction unit 1241 extracts a skeleton coordinate set P n b (n: number of detected persons, b: A skeleton ID) is generated and output to the person identification unit 1242 together with the multiple frame images including the current frame image.

人物識別部1242は、当該複数フレーム画像の各々について、骨格座標集合P を基に探索範囲(詳細は後述する。)を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成し、骨格軌跡特徴画像生成部1243に出力する。 The person identification unit 1242 variably sets a search range (details will be described later) based on the skeleton coordinate set P n b for each of the multiple frame images, and determines the position and size of the skeleton of each person and the surrounding images. A person is identified by extracting information, and a skeleton coordinate set P i b (i: person ID, b: skeleton ID) to which a person ID is assigned is generated and output to the skeleton trajectory feature image generation unit 1243 .

骨格軌跡特徴画像生成部1243は、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合P を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成する。ここで、骨格軌跡特徴画像について、その詳細は後述するが、本願明細書中、JTI(Joint Trajectory Image)と名付けている。 The skeletal trajectory feature image generation unit 1243 generates one skeletal trajectory feature image showing only the movement direction of each identified human skeleton based on the current frame image and the skeletal coordinate set P i b in the multiple frame images. to generate Here, the skeleton trajectory feature image will be described in detail later, but is named JTI (Joint Trajectory Image) in the present specification.

ここで、前述した動オブジェクト検出部1231は、本例のような柔道競技の動きの認識のためには必ずしも設ける必要はないが、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、現フレーム画像における物体(人物を含む)の検出の有無を示す検出結果と現フレーム画像を映像動き認識部1222に出力している。 Here, the above-described moving object detection unit 1231 does not necessarily have to be provided for recognizing movements in a judo competition as in this example, but each of the multiple frame images is used to detect a difference image between adjacent frames. Based on this, a moving object is detected, and a detection result indicating whether or not an object (including a person) is detected in the current frame image and the current frame image are output to the video motion recognition unit 1222 .

そこで、骨格軌跡特徴画像生成部1243は、動オブジェクト検出部1231から得られる検出結果として現フレーム画像における一以上の物体の検出が得られたときは、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を生成し、骨格軌跡特徴画像(JTI)と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像(JTI)上に、動オブジェクト軌跡画像を追加して描画(合成)したものを人物動作認識部1244に出力する。 Therefore, when the detection result obtained from the moving object detection unit 1231 is detection of one or more objects in the current frame image, the skeleton trajectory feature image generation unit 1243 uses each of the multiple frame images to generate an adjacent frame image. A moving object other than a person is selected by comparing it with the skeletal trajectory feature image (JTI), and the coordinate position, size, and moving direction obtained from each difference image for the moving object other than the person. elements, and the moving object trajectory image is added to the skeletal trajectory feature image (JTI) and rendered (synthesized) and output to the human motion recognition unit 1244 .

尚、前述した動オブジェクト検出部1231とは分けて、イベント検出部124内に、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を生成する動オブジェクト検出部を設けてもよい。 Separately from the moving object detection unit 1231 described above, the event detection unit 124 uses each of the multiple frame images to detect a moving object based on the difference image between adjacent frames, and A moving object detector may be provided that uses each to generate a difference image between adjacent frames.

人物動作認識部1244は、骨格軌跡特徴画像生成部1243から骨格軌跡特徴画像(JTI)上に、動オブジェクト軌跡画像を追加して描画(合成)したものを入力し、CNN(畳み込みニューラルネットワーク)により、人物の特定動作を認識し、各人物及び人物以外の動オブジェクトの動きに関する情報を検出する。より具体的には、人物動作認識部1244は、触覚提示デバイス5を作動させる各人物及び人物以外の動オブジェクトの動きに関する所定の衝撃提示用の情報、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報を検出し、第3のメタデータ生成部1245に出力する。 The human action recognition unit 1244 inputs the skeletal trajectory feature image (JTI) from the skeletal trajectory feature image generation unit 1243 and draws (combines) the moving object trajectory image, and recognizes the moving object trajectory image by CNN (convolutional neural network). , to recognize specific actions of a person and detect information about the motion of each person and moving objects other than the person. More specifically, the human motion recognition unit 1244 recognizes predetermined impact presentation information regarding the motion of each person and moving object other than the person who operates the tactile sense presentation device 5, that is, the identification of each person in the current frame image, Positional coordinates (and team classification in the case of a team sport, although not applicable in this example because it is a judo sport), an event ID indicating the type of movement of each person, and the timing and timing of activating the tactile presentation device The strength and timescale information for presenting impact indicating speed is detected and output to the third metadata generation unit 1245 .

第3のメタデータ生成部1245は、現フレーム画像に対応して、人物動作認識部1244から得られる各人物及び人物以外の動オブジェクトの動きに関する情報を示す触覚メタデータ、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報を含む触覚メタデータを生成し、フレーム単位で信号変換部13に出力する。 The third metadata generation unit 1245 generates tactile metadata representing information on the movement of each person and moving objects other than the person obtained from the human motion recognition unit 1244, corresponding to the current frame image. Identification of each person, positional coordinates (and team classification in the case of a team sport, which is out of scope because this example is judo), an event ID indicating the type of movement of each person, and a tactile presentation device tactile sense metadata including strength and timescale information for presenting an impact indicating the timing and speed of activating the tactile sensation is generated, and output to the signal conversion unit 13 in units of frames.

例えば、イベント検出部124において、処理対象の映像コンテンツの映像信号が、カメラによって動画撮影された柔道のスポーツ映像を示すものであれば、例えば“人物”ごとに「投げ」や「寝技」などの動作の検出を行うことができ、 各“人物”の「投げ」や「寝技」の動きをイベントIDとして識別可能に表現した触覚メタデータを生成することができる。 For example, in the event detection unit 124, if the video signal of the video content to be processed indicates a Judo sports video captured by a camera, for example, a “throw” or a “submission” is detected for each “person”. Motion can be detected, and tactile metadata can be generated that identifiably represents the motion of each “person” of “throwing” and “submission” as an event ID.

信号変換部13は、触覚メタデータ生成部12によって生成された現フレーム画像に対する各触覚メタデータを入力し、触覚刺激音声データ(DB)14を参照して、各触覚メタデータにおける予め定めた触覚刺激に対応する音信号(触覚刺激用の音声波形データの信号)のファイルを読み出すことにより音信号に変換して、同期合成部15に出力する。 The signal conversion unit 13 receives each haptic metadata for the current frame image generated by the haptic metadata generation unit 12, refers to the haptic stimulus audio data (DB) 14, and converts a predetermined haptic in each haptic metadata. A file of sound signals corresponding to stimuli (sound waveform data signals for tactile sense stimulation) is read out, converted into sound signals, and output to the synchronous synthesizing unit 15 .

具体的には、信号変換部13は、例えば映像視点推定部12によりカメラによって動画撮影された車両の運転手から見た風景を示す触覚メタデータが生成されているときは、車両の高速移動中は音信号のレベルを上げ、停止中は音信号のレベルを下げるなど、予め定めた触覚刺激に対応する音信号に変換できる。 Specifically, for example, when the video viewpoint estimating unit 12 generates tactile metadata indicating the scenery seen by the driver of the vehicle captured by the camera, the signal converting unit 13 detects that the vehicle is moving at high speed. It can be converted into a sound signal corresponding to a predetermined tactile sense stimulus, such as raising the level of the sound signal during stop and lowering the level of the sound signal during stoppage.

また、信号変換部13は、例えば物体検出部123により各“鳥”の動き、或いは“鳥”の全体の動きに対して相対的な“風”の動きを表現した触覚メタデータが生成されているときは、その動きが高速移動中は音信号のレベルを上げ、低速移動中は音信号のレベルを下げるなど、予め定めた触覚刺激に対応する音信号に変換できる。 Further, the signal conversion unit 13 generates, for example, the object detection unit 123 with tactile metadata that expresses the movement of each “bird” or the movement of the “wind” relative to the movement of all the “birds”. When the motion is moving at high speed, the level of the sound signal is increased, and when the motion is moving at low speed, the level of the sound signal is decreased.

また、信号変換部13は、例えばイベント検出部124により各“人物”の「投げ」や「寝技」の動きを表現した触覚メタデータが生成されているときは、各“人物”の「投げ」や「寝技」の動きとして激しく衝撃が大きいときは音信号のレベルを上げ、衝撃が穏やかで衝撃が小さいときは音信号のレベルを下げるなど、予め定めた触覚刺激に対応する音信号に変換できる。 For example, when the event detection unit 124 generates the tactile metadata expressing the motion of each “person” of “throwing” and “submission”, the signal conversion unit 13 detects the “throwing” of each “person”. It can be converted into a sound signal corresponding to a predetermined tactile stimulus, such as raising the level of the sound signal when the impact is strong and strong, and lowering the level of the sound signal when the impact is gentle and small. .

同期合成部15は、低周波音声抽出部11から得られる低周波音声信号と、信号変換部13から得られる各触覚メタデータを基にした音信号について、それぞれ予め定めた所定値まで個別に利得調整し、低周波音声信号(映像信号に対応する音声フレーム)に同期させて合成することにより、所定の触覚提示デバイス5を駆動するための触覚提示信号を生成する。尚、同期合成部15は、低周波音声信号と各触覚メタデータを基にした音信号とを合成した後に、一律に、或いはイコライジングして増幅させて、触覚提示信号を生成するとしてもよい。これにより、映像と違和感のない音声入力による触覚刺激を提供しながら、特定のシーンで迫力ある刺激に変化させることができる。この触覚提示信号生成装置1によって生成する触覚提示信号は、既に規格化されているオブジェクトベース音響方式の枠組みにも適合させることができる。 The synchronous synthesizing unit 15 individually gains the low-frequency audio signal obtained from the low-frequency audio extracting unit 11 and the sound signal based on each tactile metadata obtained from the signal converting unit 13 up to a predetermined value. A tactile presentation signal for driving a predetermined tactile presentation device 5 is generated by adjusting and synthesizing in synchronization with a low-frequency audio signal (audio frame corresponding to a video signal). After synthesizing the low-frequency audio signal and the sound signal based on each haptic metadata, the synchronous synthesizing unit 15 may generate a tactile presentation signal by uniformly or by equalizing and amplifying. As a result, it is possible to change the stimulus to a powerful stimulus in a specific scene while providing a tactile stimulus by voice input that does not feel out of place with video. The haptic presentation signal generated by this haptic presentation signal generation device 1 can also conform to the already standardized framework of the object-based acoustic system.

特に、同期合成部15は、低周波音声信号と、信号変換部13から得られる各触覚メタデータを基にした音信号とを、それぞれ予め定めた所定値まで個別に利得調整する際に、各触覚メタデータを基にした音信号の全ての信号強度が低周波音声信号の信号強度よりも大きくなるように利得調整して、低周波音声信号(映像信号に対応する音声フレーム)に同期させて合成するのが好適である。 In particular, when the synchronous synthesizing unit 15 individually adjusts the gains of the low-frequency audio signal and the sound signal based on each tactile metadata obtained from the signal converting unit 13 to predetermined values, Synchronize with the low-frequency audio signal (audio frame corresponding to the video signal) by adjusting the gain so that the signal strength of all the sound signals based on the haptic metadata is greater than the signal strength of the low-frequency audio signal. Synthesis is preferred.

以下、より具体的に、図2を基に、図3乃至図8を参照しながら、触覚提示信号生成装置1における触覚メタデータ生成処理について説明する。 Hereinafter, the haptic metadata generation processing in the haptic presentation signal generation device 1 will be described more specifically based on FIG. 2 and with reference to FIGS. 3 to 8. FIG.

(触覚メタデータ生成処理)
図2は、本発明による一実施形態の触覚提示信号生成装置1における触覚メタデータ生成部12の処理例を示すフローチャートである。そして、図3は、本発明による一実施形態の触覚提示信号生成装置1における映像視点推定部122によるオプティカルフロー計測に基づいた映像の動きに係る移動速度の推定例を示す例である。また、図4は、本発明による一実施形態の触覚提示信号生成装置1における物体検出部123による物体動きの推定例を示す例である。更に、図5は、触覚提示信号生成装置1におけるイベント検出部124の人物骨格抽出処理に関する説明図である。図6(a)は1フレーム画像を例示する図であり、図6(b)は触覚提示信号生成装置1における1フレーム画像における人物骨格抽出例を示す図である。図7(a),(b)は、それぞれ本発明による一実施形態の触覚提示信号生成装置1における人物骨格抽出処理に関する人物オブジェクトの探索範囲の処理例を示す図である。図8(a)は、本発明に係る骨格軌跡特徴画像(JTI)の画像例を示す図であり、図8(b)は、その軌跡特徴画像(JTI)の説明図である。
(Haptic metadata generation processing)
FIG. 2 is a flowchart showing a processing example of the haptic metadata generation unit 12 in the haptic presentation signal generation device 1 according to one embodiment of the present invention. FIG. 3 is an example showing an example of estimating the movement speed related to the motion of the video based on the optical flow measurement by the video viewpoint estimation unit 122 in the tactile sense presentation signal generation device 1 according to one embodiment of the present invention. FIG. 4 is an example showing an estimation example of object motion by the object detection unit 123 in the tactile sense presentation signal generation device 1 according to one embodiment of the present invention. Furthermore, FIG. 5 is an explanatory diagram relating to the human skeleton extraction processing of the event detection unit 124 in the tactile sense presentation signal generation device 1. As shown in FIG. FIG. 6(a) is a diagram showing an example of a one-frame image, and FIG. 6(b) is a diagram showing an example of human skeleton extraction in the one-frame image in the tactile sense presentation signal generation device 1. As shown in FIG. FIGS. 7(a) and 7(b) are diagrams showing examples of human object search range processing related to human skeleton extraction processing in the tactile sense presentation signal generation device 1 according to one embodiment of the present invention. FIG. 8(a) is a diagram showing an image example of a skeletal trajectory feature image (JTI) according to the present invention, and FIG. 8(b) is an explanatory diagram of the trajectory feature image (JTI).

図2に示すように、触覚提示信号生成装置1は、まず、複数フレーム抽出部121により、映像コンテンツ出力装置2から入力された映像について、現フレーム画像とT(Tは1以上の整数)フレーム分の過去のフレーム画像を含む複数フレーム画像を抽出する(ステップS1)。 As shown in FIG. 2, the tactile sense presentation signal generation device 1 first extracts a current frame image and T (T is an integer equal to or greater than 1) frames for the video input from the video content output device 2 by the multi-frame extraction unit 121. A plurality of frame images including previous frame images are extracted (step S1).

続いて、触覚提示信号生成装置1は、映像視点推定部122により、当該複数フレーム画像の各々を用いたオプティカルフロー計測によりオプティカルフロー画像を生成し、このオプティカルフロー画像を基に一人称視点映像か否かを判定する(ステップS2)。 Subsequently, the tactile sensation presentation signal generation device 1 generates an optical flow image by optical flow measurement using each of the plurality of frame images by the video viewpoint estimation unit 122, and determines whether or not the video is a first-person viewpoint video based on the optical flow image. (step S2).

そして、映像視点推定部122は、一人称視点映像であると判定されたときは(ステップS3:Yes)、そのオプティカルフロー画像から一人称視点を基準にした映像の動き(少なくとも一人称視点の方向と映像の移動速度を含む。)を推定し、その推定結果を第1のメタデータ生成部1223に出力し、その一人称視点を基準にした映像の動きを示す触覚メタデータを生成し、フレーム単位で出力する(ステップS4)。 When the video viewpoint estimation unit 122 determines that the video is the first-person viewpoint video (step S3: Yes), the video viewpoint estimation unit 122 determines the movement of the video with respect to the first-person viewpoint from the optical flow image (at least the direction of the first-person viewpoint and the direction of the video). movement speed), outputs the estimation result to the first metadata generation unit 1223, generates haptic metadata indicating the movement of the video based on the first person viewpoint, and outputs it in units of frames. (Step S4).

例えば、映像視点推定部12において、処理対象の映像コンテンツの映像信号が、カメラによって動画撮影された車両の運転手から見た風景を示すもので、図3に示すようなオプティカルフロー画像F’が得られたとする。オプティカルフロー画像F’では、道路Orを走行する車両Ovのライトや街灯Os等の軌跡が示されるようになり、視点方向を示す座標点Vpも推定できる。このため、映像視点推定部12において、映像の動き(一人称視点の方向と映像の移動速度)を推定した触覚メタデータを生成することができる。 For example, in the video viewpoint estimating unit 12, the video signal of the video content to be processed represents the scenery seen from the driver of the vehicle captured by the camera as a moving image, and the optical flow image F' as shown in FIG. Suppose you got In the optical flow image F', the trajectories of the lights of the vehicle Ov traveling on the road Or, the street lights Os, and the like are shown, and the coordinate point Vp indicating the viewpoint direction can also be estimated. Therefore, the video viewpoint estimation unit 12 can generate haptic metadata that estimates the motion of the video (the direction of the first-person viewpoint and the moving speed of the video).

尚、映像視点推定部122は、一人称視点映像であると判定しなかったときは(ステップS3:No)、一人称視点を基準にした映像の動きを示す触覚メタデータの生成は行わず、ステップS5に移行する。 Note that when the video viewpoint estimation unit 122 does not determine that the video is the first-person viewpoint video (step S3: No), it does not generate tactile metadata indicating the movement of the video with respect to the first-person viewpoint, and does not generate the tactile metadata in step S5. transition to

続いて、触覚提示信号生成装置1は、物体検出部123により、当該複数フレーム画像の各々を用いた隣接フレーム間の差分画像を生成し、この差分画像を基に、現フレーム画像における物体(人物を含む)に関する動オブジェクトの検出処理を行う(ステップS5)。 Subsequently, the tactile sense presentation signal generation device 1 uses the object detection unit 123 to generate a difference image between adjacent frames using each of the plurality of frame images. ) is performed (step S5).

そして、物体検出部123は、現フレーム画像における一以上の物体の検出が得られたときは、現フレーム画像における物体(人物を含む)の動き(少なくとも各物体の物体ID(識別子)、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む。)を算出し、その現フレーム画像における物体(人物を含む)の動きを示す触覚メタデータを生成し、フレーム単位で出力する(ステップS6)。 Then, when one or more objects are detected in the current frame image, the object detection unit 123 detects the movement of the object (including the person) in the current frame image (at least the object ID (identifier) of each object, each object , the relative speed of each object with respect to the background, and the distance between objects in the current frame image), and generate haptic metadata indicating the movement of objects (including people) in the current frame image, Output in units of frames (step S6).

例えば、図4に示すように、物体検出部123において、処理対象の映像コンテンツの映像信号が、カメラによって動画撮影された“鳥”の飛行を示すもので、隣接フレーム間の差分画像を基に、図4に示すような現フレーム画像Fにおける“鳥”の検出を行うことができたとする。現フレーム画像F上で、“鳥”を物体Obとして検出される注目範囲Rdについても検出でき、ここでは背景Ocとして例えば雲が示される。このため、物体検出部123において、 各“鳥”のサイズ、各“鳥”の背景に対する相対速度、及び現フレーム画像における“鳥”間の距離を算出し、“鳥”の背景に対する相対速度から、各“鳥”の動き、或いは“鳥”の全体の動きに対して相対的な“風”の動きを表現した触覚メタデータを生成することができる。 For example, as shown in FIG. 4, in the object detection unit 123, the video signal of the video content to be processed indicates the flight of a “bird” captured by a camera as a moving image. , a "bird" can be detected in the current frame image F as shown in FIG. On the current frame image F, the attention range Rd in which the "bird" is detected as the object Ob can also be detected, and here, for example, clouds are shown as the background Oc. For this reason, the object detection unit 123 calculates the size of each "bird", the relative speed of each "bird" to the background, and the distance between the "birds" in the current frame image. , haptic metadata representing the movement of each "bird" or the movement of the "wind" relative to the overall movement of the "birds" can be generated.

尚、物体検出部123は、フレーム画像における物体(人物を含む)の動きを検出しなかったときは、物体(人物を含む)の動きを示す触覚メタデータの生成は行わず、ステップS7に移行する。 Note that when the object detection unit 123 does not detect the movement of the object (including the person) in the frame image, it does not generate the haptic metadata indicating the movement of the object (including the person), and proceeds to step S7. do.

続いて、触覚提示信号生成装置1は、イベント検出部124における人物骨格抽出部1241により、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの骨格座標集合P (n:検出人数、b:骨格ID)を生成する(ステップS7)。 Subsequently, the human skeleton extraction unit 1241 in the event detection unit 124 of the tactile sense presentation signal generation device 1 extracts a skeleton coordinate set P n b (n: Detected number of people, b: skeleton ID) is generated (step S7).

近年の深層学習技術の発展により、通常の画像から人物の骨格位置を推定することが可能となった。OpenPoseやVisionPose(NextSystem社)に代表されるように、骨格検出アルゴリズムをオープンソースで公開しているものも存在する。そこで、本例の人物骨格抽出部1241は、VisionPoseを用いて、図5に示すように、フレーム画像毎に人物の骨格30点を検出し、その位置座標を示す骨格座標集合P を生成する。 Recent advances in deep learning technology have made it possible to estimate the position of a person's skeleton from a normal image. As typified by OpenPose and VisionPose (NextSystem), there are some open source skeleton detection algorithms that are open to the public. Therefore, the human skeleton extraction unit 1241 of this example uses VisionPose to detect 30 points of the human skeleton for each frame image, as shown in FIG . do.

VisionPoseでは、図5において、P :“頭”、P :“鼻”、P :“左目”、P :“右目”、P :“左耳”、P :“右耳”、P :“首”、P :“背骨(肩)”、P :“左肩”、P 10:“右肩”、P 11:“左肘”、P 12:“右肘”、P 13:“左手首”、P 14:“右手首”、P 15:“左手”、P 16:“右手”、P 17:“左親指”、P 18:“右親指”、P 19:“左指先”、P 20:“右指先”、P 21:“背骨(中央)”、P 22:“背骨(基端部)”、P 23:“左尻部”、P 24:“右尻部”、P 25:“左膝”、P 26:“右膝”、P 27:“左足首”、P 28:“右足首”、P 29:“左足”、及び、P 30:“右足”、についての座標位置と、各座標位置を図示するような線で連結した描画が可能である。 In VisionPose, in FIG . 5 , Pn1 : "head", Pn2 : "nose" , Pn3 : "left eye", Pn4: "right eye", Pn5 : " left ear", Pn 6 : "right ear " , Pn7 : "neck", Pn8 : " spine (shoulder)", Pn9 : " left shoulder", Pn10 : " right shoulder", Pn11 : " left elbow" ”, Pn12 : “right elbow , Pn13 : “left wrist” , Pn14: “right wrist”, Pn15 : left hand”, Pn16 : “right hand”, Pn17 : “ Left Thumb", Pn18 : "Right Thumb" , Pn19 : " Left Fingertip", Pn20: "Right Fingertip", Pn21 : "Spine (Center)", Pn22 : " Spine (Base) " end)”, Pn23 : “left hip , Pn24 : “right hip , Pn25: “left knee”, Pn26 : right knee”, Pn27 : “left ankle ”, Pn28 : “right ankle”, Pn29 : “ left foot”, and Pn30 : “ right foot”, and drawing is possible by connecting each coordinate position with a line as shown in the figure . is.

このVisionPoseの骨格検出アルゴリズムに基づき、図6(a)に示す柔道競技の1フレーム画像Fに対して、人物の骨格抽出を行ったフレーム画像Faを図6(b)に示している。図6(a)に示すフレーム画像Fには、各人物オブジェクトOp1,Op2(選手)のみが映り込んでいる様子を示しているが、その他の人物オブジェクトである審判の動オブジェクトが映り込むことや、別のスポーツ競技であれば人物以外の動オブジェクト(バドミントン競技であればラケットやシャトル等)、或いは観客等のオブジェクト(実質的には、静オブジェクト)が写り込むことがある。しかし、VisionPoseの骨格検出アルゴリズムを適用すると、選手及び審判の人物オブジェクトの人物についてのみ人物の骨格抽出を抽出することができる。本例では、図6(b)に示すように、人物オブジェクトOp1,Op2にそれぞれ対応する骨格座標集合P ,P を推定して生成することができる。図6(b)からも理解されるように、柔道競技においても、比較的精度よく各人物の骨格を推定できる。尚、骨格検出アルゴリズムは、静止画単位での推定に留まるので、触覚提示信号生成装置1は、後続する処理として、人物の識別を行い、各人物の骨格位置の推移を1枚の骨格軌跡特徴画像(JTI)に描画し、CNNにより時間軸を考慮した高精度な動作認識を行う。 FIG. 6B shows a frame image Fa obtained by extracting a human skeleton from the one-frame image F of the judo competition shown in FIG. 6A based on the VisionPose skeleton detection algorithm. In the frame image F shown in FIG. 6A, only the person objects Op1 and Op2 (players) are shown. In other sports, moving objects other than people (such as rackets and shuttlecocks in badminton) or objects such as spectators (substantially static objects) may appear. However, by applying VisionPose's skeleton detection algorithm, it is possible to extract the skeleton of the person only for the person of the player and referee person objects. In this example, as shown in FIG. 6B, skeleton coordinate sets P 1 b and P 2 b corresponding to human objects Op1 and Op2 can be estimated and generated. As can be seen from FIG. 6B, the skeleton of each person can be estimated with relatively high accuracy even in the judo competition. Since the skeleton detection algorithm is limited to estimation in units of still images, the tactile sense presentation signal generation device 1 identifies a person as a subsequent process, and converts the transition of the skeleton position of each person into a single skeleton trajectory feature. It draws on an image (JTI) and performs highly accurate motion recognition considering the time axis by CNN.

続いて、触覚提示信号生成装置1は、人物識別部1242により、当該複数フレーム画像の各々について、骨格座標集合P を基に探索範囲を可変設定し、各人物の骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する(ステップS8)。 Subsequently, the tactile sense presentation signal generation device 1 causes the person identification unit 1242 to variably set the search range based on the skeleton coordinate set Pnb for each of the plurality of frame images, and determines the position and size of the skeleton of each person. , a person is identified by extracting peripheral image information thereof, and a skeleton coordinate set P i b (i: person ID, b: skeleton ID) to which a person ID is assigned is generated (step S8).

前述した人物骨格抽出部1241により、当該複数フレーム画像の各々について、骨格座標集合P として、1以上の人物の骨格の検出が可能となる。しかし、各フレーム画像の骨格座標集合P では、「誰」の情報は存在しないため、各人物の骨格を識別する必要がある。この識別には、各フレーム画像における各骨格座標集合P の座標付近の画像情報を利用する。即ち、人物識別部1242は、骨格座標集合P を基に、各人物の骨格の位置及びサイズと、その周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を抽出することにより、人物を識別し、人物IDを付与した骨格座標集合P (i:人物ID、b:骨格ID)を生成する。 The human skeleton extraction unit 1241 described above makes it possible to detect one or more human skeletons as a skeleton coordinate set Pnb for each of the multiple frame images. However, since there is no "who" information in the skeleton coordinate set Pnb of each frame image, it is necessary to identify the skeleton of each person. For this identification , image information near the coordinates of each skeleton coordinate set Pnb in each frame image is used. That is, the person identification unit 1242 extracts the position and size of each person's skeleton and peripheral image information (color information and texture information around the face or back) based on the skeleton coordinate set Pnb . , identify a person and generate a skeleton coordinate set P i b (i: person ID, b: skeleton ID) to which a person ID is assigned.

例えば、柔道では白と青の道着で試合が行われるが、各骨格座標集合P の骨格の位置付近の画像情報として、フレーム画像Fにおける色情報を参照することで、選手の識別が可能になる。また、バドミントン競技では、コートを縦に構えた画角で撮影される場合に、各骨格座標集合P の骨格の位置がフレーム画像Fにおける画面上側であれば奥の選手、画面下側であれば手前の選手、として識別することができる。 For example, in judo, a match is played in white and blue uniforms. By referring to the color information in the frame image F as the image information near the position of the skeleton of each skeleton coordinate set Pnb , the player can be identified. be possible. Also, in a badminton game, when the image is taken with the court held vertically, if the position of the skeleton of each skeleton coordinate set P n b is on the upper side of the screen in the frame image F, the player is in the back, and the lower side of the screen is If there is, it can be identified as the player in front.

従って、人物骨格抽出部1241における骨格検出アルゴリズムは静止画単位での推定に留まるが、骨格座標集合P を基に動オブジェクトとしての人物を認識することができる。 Therefore, although the skeleton detection algorithm in the human skeleton extraction unit 1241 is limited to estimation for each still image, it is possible to recognize a person as a moving object based on the skeleton coordinate set Pnb .

尚、前述した人物骨格抽出部1241では、選手以外にも審判や観客など、触覚刺激の提示対象としない他の人物の骨格を検出してしまうことも多い。審判は選手と別の衣服を着用することが多いため、色情報で識別できる。また、観客は選手に比べて遠くにいることが多いため、骨格のサイズで識別が可能である。このように、各競技のルールや撮影状況を考慮し、人物識別に適切な周辺画像情報(色情報、及び顔又は背付近のテクスチャ情報)を設定することにより、触覚刺激の提示対象とする選手の識別が可能となる。 It should be noted that the human skeleton extraction unit 1241 described above often detects the skeletons of other persons, such as referees and spectators, who are not subject to tactile stimulus presentation, in addition to athletes. Referees often wear different clothes than players, so they can be identified by color information. Also, spectators are often farther away than athletes, so they can be identified by the size of their skeletons. In this way, considering the rules and shooting conditions of each game, and setting the surrounding image information (color information and texture information around the face or back) suitable for person identification, the player who is the target of the tactile stimulus presentation can be identified.

ところで、本実施形態の人物識別部1242は、各人物の重なりやオクルージョンにも対応するため、フレーム画像単位で探索範囲(人物探索範囲R及び注目探索範囲Rb)を可変設定する。例えば、図7(a)に示す人物オブジェクトOp1,Op2(選手)と、人物オブジェクトOp3(審判)について、人物骨格抽出部1241により各骨格座標集合P (図示略)の抽出が行われると、人物識別部1242は、フレーム画像単位で人物探索範囲R及び注目探索範囲Rbを可変設定することができる。この探索範囲Rは、図7(a)において、人物ID(i)ごとに設定し、フレーム画像の画像座標上での人物の位置座標、及び人物の大きさ(幅及び高さ)を有するものとして外接矩形で表している。また、各人物の腰領域(P 22,P 23,P 24)を囲む領域を注目探索範囲Rbとして表している。 By the way, the person identification unit 1242 of the present embodiment variably sets the search range (person search range R i and attention search range Rb i ) for each frame image in order to cope with overlapping and occlusion of each person. For example, when the human skeleton extraction unit 1241 extracts each skeleton coordinate set P n b (not shown) for the human objects Op1 and Op2 (players) and the human object Op3 (referee) shown in FIG. , the person identification unit 1242 can variably set the person search range Ri and the attention search range Rbi for each frame image. This search range R i is set for each person ID (i) in FIG. It is represented by a circumscribing rectangle. Also , a region surrounding the waist region ( Pn22 , Pn23 , Pn24 ) of each person is represented as a focused search range Rbi .

より具体的には、本実施形態の人物識別部1242は、各フレーム画像で人物の探索範囲を、最大で人物骨格の全体を囲む人物探索範囲Rに限定し、最小で人物骨格のうち所定領域(本例では腰領域(P 22,P 23,P 24)を囲む領域)を注目探索範囲Rbとして定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rbを含むように探索範囲を決定して、当該人物オブジェクトを識別する処理を行う。これにより、例えば図7(b)に示すように各人物の動作が変化した場合やフレーム画像に対する相対的な人物の大きさが変化した場合でも、他の人物の誤認識を防ぎ、また処理速度も向上できる。特に、柔道のように識別対象の人物の重なりが激しく、背景も複雑な映像から精度よく選手を識別するには探索範囲の利用が有効である。 More specifically, the person identification unit 1242 of this embodiment limits the search range for a person in each frame image to a person search range R i that encloses the entire human skeleton at the maximum. A region (in this example, a region surrounding the waist region (P n 22 , P n 23 , P n 24 )) is defined as the attention search range Rb i . Based on the state transition estimated value, a search range is determined so as to include at least the focused search range Rbi , and processing for identifying the person object is performed. As a result, for example, as shown in FIG. 7B, even when the motion of each person changes or when the size of the person relative to the frame image changes, erroneous recognition of other people can be prevented, and the processing speed can be improved. can also be improved. In particular, it is effective to use the search range to accurately identify a player from images such as judo, in which persons to be identified overlap heavily and the background is complicated.

つまり、本実施形態の人物識別部1242は、各選手及び審判の人物オブジェクトのOp1,Op2,Op3における各骨格座標集合P のうち、色識別を可能とする所定範囲(本例では腰領域(P 22,P 23,P 24)の色(青、白、茶色))を注目探索範囲Rbとして予め定めているので、検出した複数の人物の骨格座標集合P が重なる場合には注目探索範囲Rbに絞って探索することで、各フレーム画像で精度よく人物を抽出・追跡できる。尚、背景に解析対象以外の骨格を検出する場合もあるため、解析対象の人物の骨格には、人物ID(i)を付与して判別することで、追跡対象の人物の骨格座標P を識別できる。 In other words, the person identification unit 1242 of this embodiment selects a predetermined range (in this example, the waist region) that enables color identification among each skeleton coordinate set P n b in Op1, Op2, and Op3 of the person object of each player and referee. Since the colors (blue, white , brown) of ( Pn22 , Pn23 , Pn24 ) ) are predetermined as the attention search range Rb i , the skeletal coordinate sets Pnb of a plurality of detected persons overlap. In this case, by narrowing down the search to the attention search range Rbi , a person can be extracted and tracked with high accuracy in each frame image. In addition, since a skeleton other than the analysis target may be detected in the background, the skeleton of the person to be analyzed is assigned a person ID (i) to determine the skeleton coordinates P i b of the person to be tracked. can be identified.

そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の広さや形の決定は、カルマンフィルタやパーティクルフィルタなどの状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも注目探索範囲Rb(本例では、各人物の腰領域)を含むように決定する。 The size and shape of the search range (person search range R i and attention search range Rb i ) are determined based on the state transition estimated value of the human skeleton obtained by a state estimation algorithm such as a Kalman filter or a particle filter. It is determined so as to include the attention search range Rb i (the waist region of each person in this example).

そして、探索範囲(人物探索範囲R及び注目探索範囲Rb)の安定検出時には範囲を狭め、検出が不安定な際には範囲を広げることができ、例えば、人物ID(i)ごとに人物の骨格の状態遷移推定値に基づいて定めた探索範囲を設定し、その状態遷移推定値が直前フレームから所定値以内であれば安定とし、そうでなければ不安定とすることや、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、Tフレーム分の時間窓間に、検出に成功した割合を計算し、その割合が所定値以上であれば安定とし、当該所定値を下回った場合に不安定とすることで、探索範囲を可変設定することができる。 When the search range (person search range R i and attention search range Rb i ) is detected stably, the range can be narrowed, and when the detection is unstable, the range can be widened. setting a search range determined based on the state transition estimated value of the skeleton of the state estimation algorithm Based on the state transition estimated value of the person's skeleton obtained in , the ratio of successful detection is calculated during the time window for T frames, and if the ratio is a predetermined value or more, it is considered stable, and if it is less than the predetermined value. The search range can be variably set by making the search range unstable.

続いて、触覚提示信号生成装置1は、骨格軌跡特徴画像生成部1243により、現フレーム画像を基準に、当該複数フレーム画像における骨格座標集合P を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像(JTI)を生成する(ステップS9)。 Next, the tactile sensation presentation signal generation device 1 uses the skeleton trajectory feature image generation unit 1243 to generate the movement of each identified human skeleton based on the skeleton coordinate set P i b in the multiple frame images based on the current frame image. A single skeletal trajectory feature image (JTI) showing only the direction is generated (step S9).

ここで、骨格軌跡特徴画像(JTI)の描画生成にあたって、まず、任意のフレーム画像における骨格座標集合P をP (t)とし、現フレーム画像をt=0として現フレーム画像における骨格座標集合P をP (0)で表し、過去Tフレームのフレーム画像における骨格座標集合P をP (T)で表す。つまり、骨格軌跡特徴画像生成部1243は、現フレーム画像のフレーム番号をt=0として、過去Tフレームまでのフレーム番号をt=Tで表すと、現フレーム画像を基準に、t=0,1,…,Tの各フレーム画像Fを用いて、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像(JTI)を生成することができる。骨格軌跡特徴画像(JTI)は、いわば現フレーム画像を基準に過去のオプティカルフローを連結し、1枚の画像として時間軸の情報を含んだものである。 Here, in drawing and generating the skeleton trajectory feature image (JTI), first, let P ib (t) be the skeleton coordinate set P i b in an arbitrary frame image, set the current frame image to t=0, and set the skeleton in the current frame image . The coordinate set P i b is represented by P i b (0), and the skeleton coordinate set P i b in the frame images of the past T frames is represented by P i b (T). That is, if the frame number of the current frame image is t=0 and the frame numbers up to T frames in the past are represented by t=T, the skeleton trajectory feature image generation unit 1243 uses the current frame image as a reference, t=0, 1, and so on. , . . . , T, it is possible to generate one skeleton trajectory feature image (JTI) showing only the movement direction of each identified human skeleton. A skeletal trajectory feature image (JTI) is, so to speak, an image in which past optical flows are connected based on the current frame image, and information on the time axis is included as one image.

この骨格軌跡特徴画像(JTI)における軌跡特徴量のデュレーションとなるTは、任意に設定可能である。また、1枚の骨格軌跡特徴画像(JTI)の生成に用いる骨格座標は、必ずしも図5に示す30点全てを用いる必要はなく、予め定めた特定の骨格軌跡のみを使用して、処理速度を向上させる構成とすることもできる。 T, which is the duration of the trajectory feature amount in the skeletal trajectory feature image (JTI), can be set arbitrarily. Further, it is not always necessary to use all the 30 points shown in FIG. 5 for the skeletal coordinates used to generate one skeletal trajectory feature image (JTI). It can also be configured to improve.

骨格軌跡特徴画像(JTI)は、現フレーム画像から過去Tフレーム分のフレーム画像における各人物の骨格座標を利用し、各人物の骨格座標ごとに連結した軌跡を描画するものとし、且つこの描画の際に、過去に向かうほど輝度を下げか、又は上げて描画して生成した1枚の画像とする。好適には、骨格軌跡特徴画像(JTI)は、現フレームからTフレーム分の過去のフレーム画像における各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き(遷移)をフレーム単位で時系列に階調するよう描画したものとする。 The skeletal trajectory feature image (JTI) shall draw a trajectory connected to each person's skeletal coordinates by using the skeletal coordinates of each person in the frame images of the past T frames from the current frame image. In this case, one image is generated by drawing with decreasing or increasing luminance toward the past. Preferably, the skeletal trajectory feature image (JTI) is color-coded according to the skeletal coordinates of each person in the past frame images for T frames from the current frame, and the movement (transition) of each person's skeletal coordinates is displayed in units of frames. It is assumed that the image is drawn so as to have gradation in chronological order.

例えば、現フレームから過去Tフレームまで、各人物の骨格座標ごとに連結した軌跡を描画する際に、その輝度bを
b=255×(T-t)/T
として定めたものとする。
For example, when drawing a trajectory connecting each person's skeletal coordinates from the current frame to the past T frames, the brightness b is b=255×(T−t)/T.
shall be defined as

また、過去に遡るほど輝度を上げるように描画してもよく、この場合には、
b=255×t/T
とすることができる。
In addition, it may be drawn so that the brightness increases as it goes back in time, and in this case,
b=255×t/T
can be

ここで、t=0を現フレーム画像とし過去Tフレーム分を処理対象とするとき(t=0~T)、bを0~255とし、その値を、各人物の骨格座標ごとに色分けして表現するのが好適である。例えば、図8(a)は、本発明に係る骨格軌跡特徴画像(JTI)の画像例を示す図である。図8(a)ではグレイスケール表示として認識処理に用いるとしているが、好適には、図8(b)に示す軌跡特徴画像(JTI)の説明図に示すように、例えば背景は輝度として最低値の“黒”(若しくは輝度として最高値の“白”でもよい。)、いずれの人物オブジェクトOp1,Op2についても、例えば“頭” (P ),(P )の色を“青”に、“左指先” (P 19),(P 19)の色を“赤”とするなど、予め区別可能とする色で色分けして描画する。また、本実施例では、図8(b)に示すように人物オブジェクトOp1,Op2を区別する色分けを施していないが、各人物オブジェクトOp1,Op2をも色分けするとしてもよく、例えば2名の人物に対し最大30点の骨格座標を色分けするには、60色を定義すればよい。そして、本発明に係る骨格軌跡特徴画像(JTI)は、各人物の骨格座標ごとに色を固定したまま、輝度のみが現フレーム画像から過去へ遡るほど暗く(もしくは明るく)描画するものとする。 Here, when t = 0 is the current frame image and the past T frames are to be processed (t = 0 to T), b is 0 to 255, and the value is color-coded for each person's skeleton coordinates. It is preferred to express For example, FIG. 8A is a diagram showing an image example of a skeletal trajectory feature image (JTI) according to the present invention. In FIG. 8(a), grayscale display is used for recognition processing. (or "white" with the highest luminance value), and for both human objects Op1 and Op2, for example, "head" (P 1 1 ) and (P 2 1 ) are set to "blue". In addition, the "left fingertips" (P 1 19 ) and (P 2 19 ) are drawn in different colors such as "red". Also, in this embodiment, as shown in FIG. 8B, the person objects Op1 and Op2 are not color-coded to distinguish them, but the person objects Op1 and Op2 may also be color-coded. To color-code up to 30 skeletal coordinates for , 60 colors need to be defined. In the skeletal trajectory feature image (JTI) according to the present invention, while the color is fixed for each person's skeletal coordinates, only the brightness is drawn darker (or brighter) as it goes back from the current frame image.

従って、骨格軌跡特徴画像生成部1243は、骨格軌跡特徴画像(JTI)として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動き(遷移)をフレーム単位で時系列に階調するよう描画したものとする。 Therefore, the skeletal trajectory feature image generation unit 1243 color-codes the skeletal coordinates of each person in the multi-frame images as a skeletal trajectory feature image (JTI), commonly or separately for each person. , the movement (transition) for each frame coordinate of each person is drawn in units of frames so as to be gradated in time series.

また、骨格軌跡特徴画像生成部1243は、動オブジェクト検出部1231の機能により、球技の場合はボールなど、人物骨格以外の軌跡を併せて骨格軌跡特徴画像(JTI)上に描画することができる。この場合、ボールの移動方向などが特徴量に付加されるため、動作認識の判定精度が向上する。 Further, the skeleton trajectory feature image generation unit 1243 can also draw a trajectory other than the human skeleton, such as a ball, on the skeletal trajectory feature image (JTI) in the case of a ball game, using the function of the moving object detection unit 1231 . In this case, since the moving direction of the ball and the like are added to the feature amount, the determination accuracy of action recognition is improved.

即ち、触覚提示信号生成装置1は、骨格軌跡特徴画像生成部1243により、動オブジェクト検出部1231から得られる検出結果として現フレーム画像における一以上の物体の検出が得られたときは、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を生成し、骨格軌跡特徴画像(JTI)と対比して人物以外の動オブジェクトを選定し、その人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成し、骨格軌跡特徴画像(JTI)上に、動オブジェクト軌跡画像を追加して描画(合成)したものを人物動作認識部1244に出力する(ステップS10)。 That is, when the skeletal trajectory feature image generation unit 1243 detects detection of one or more objects in the current frame image as a detection result obtained from the moving object detection unit 1231, the tactile sense presentation signal generation device 1 detects the detection of one or more objects in the current frame image. Each of the images is used to generate a difference image between adjacent frames, a moving object other than the person is selected by comparison with the skeletal trajectory feature image (JTI), and for the moving object other than the person, the difference image obtained from each difference image A moving object trajectory image is generated by connecting coordinate position, size, and moving direction as elements, and the moving object trajectory image is added to the skeletal trajectory feature image (JTI) and rendered (synthesized) by the human action recognition unit. 1244 (step S10).

尚、前述した動オブジェクト検出部1231とは分けて、イベント検出部124内に、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を生成する動オブジェクト検出部を設けてもよい。 Separately from the moving object detection unit 1231 described above, the event detection unit 124 uses each of the multiple frame images to detect a moving object based on the difference image between adjacent frames, and A moving object detector may be provided that uses each to generate a difference image between adjacent frames.

即ち、イベント検出部124は、骨格軌跡特徴画像生成部1243により、競技に関わる人物以外の動オブジェクトが存在しない、柔道競技のような場合では必要とされないが(処理として設けていても弊害が無い。)、競技に関わる人物以外の動オブジェクトが存在する場合(例えばバドミントン競技のシャトルやラケット、卓球やテニス競技のボールやラケット等)、その人物以外の動オブジェクトの動きの軌跡を検出し、動オブジェクト軌跡画像として生成し、骨格軌跡特徴画像(JTI)上に、動オブジェクト軌跡画像を追加して描画(合成)させる。これにより、例えば競技に関わる人物以外の動オブジェクトが存在する場合、競技に関わる人物の動きに関わる情報が増えるため、後段の人物動作認識部1244における人物動作の認識精度が向上する。このため、動オブジェクト検出部1231の機能をイベント検出部124でも利用するように設けておくことで、任意の競技に対して同処理で対応できるため、汎用性のある触覚提示信号生成装置1を構成できる。 In other words, the event detection unit 124 is not required in a case such as a judo competition in which there are no moving objects other than the person involved in the competition by the skeletal trajectory feature image generation unit 1243 (even if it is provided as a process, there is no harmful effect). ), when there are moving objects other than people involved in the game (for example, shuttlecocks and rackets in badminton competitions, balls and rackets in table tennis and tennis competitions, etc.), the trajectory of the movement of the moving objects other than the people is detected, An object trajectory image is generated, and the moving object trajectory image is added to the skeletal trajectory feature image (JTI) to draw (synthesize). As a result, for example, when there is a moving object other than the person involved in the game, the amount of information related to the movement of the person involved in the game increases, so the human action recognition unit 1244 in the subsequent stage can recognize the human action more accurately. Therefore, by providing the function of the moving object detection unit 1231 so that it can be used by the event detection unit 124 as well, any game can be handled with the same processing. Configurable.

続いて、触覚提示信号生成装置1は、人物動作認識部1244により、骨格軌跡特徴画像(JTI)を入力とするCNN(畳み込みニューラルネットワーク)により、人物の特定動作を認識し、触覚提示デバイス5を作動させる所定の各人物及び人物以外の動オブジェクトの動きに関する情報を検出する(ステップS11)。各人物及び人物以外の動オブジェクトの動きに関する情報には、現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報が含まれる。 Subsequently, the tactile sense presentation signal generation device 1 uses the human motion recognition unit 1244 to recognize a specific motion of the person by a CNN (convolutional neural network) that receives the skeletal trajectory feature image (JTI) as an input, and recognizes the tactile sense presentation device 5. Information about the movement of each predetermined person to be activated and the moving object other than the person is detected (step S11). The information about the movement of each person and moving objects other than the person includes the identification and position coordinates of each person in the current frame image. team classification), an event ID indicating the type of movement of each person, and information on intensity and time scale for impact presentation indicating the timing and speed of actuating the tactile presentation device.

尚、CNNによる機械学習時には、事前に学習用の骨格軌跡特徴画像(JTI)を作成して学習させておく。このように、人物動作認識部1244における認識処理には、深層学習の一つであるCNN(畳み込みニューラルネットワーク)を用いる。CNNは、何段もの深い層を持つニューラルネットワークであり、特に画像認識の分野で優れた性能を発揮しているネットワークである。このネットワークは「畳み込み層」や「プーリング層」などの幾つかの特徴的な機能を持った層を積み上げることで構成され、現在幅広い分野で利用されている。「畳み込み層」の処理により高い精度を、「プーリング層」の処理により撮影画角に依存しない汎用性を実現している。 In machine learning by CNN, a skeletal trajectory feature image (JTI) for learning is created in advance and learned. In this way, CNN (convolutional neural network), which is one of deep learning, is used for recognition processing in the human action recognition unit 1244 . A CNN is a neural network with many deep layers, and is a network that exhibits excellent performance especially in the field of image recognition. This network is constructed by piling up layers with several characteristic functions such as "convolution layer" and "pooling layer", and is currently used in a wide range of fields. The "convolution layer" processing achieves high accuracy, and the "pooling layer" processing achieves versatility that does not depend on the shooting angle of view.

このCNNを用いて骨格軌跡特徴画像(JTI)を解析することで、「組み合い」や「投げ」、「寝技」などの動作イベントを、選手の撮影サイズや位置に依存せずに高い精度で識別することが可能となり、これらの情報を基にイベントIDを割り当て、触覚デバイス5を制御するための触覚メタデータを生成することで、スポーツ映像のリアルタイム視聴時でも触覚刺激を提示することが可能となる。 By analyzing skeletal trajectory feature images (JTI) using this CNN, motion events such as grappling, throwing, and groundwork can be identified with high accuracy regardless of the player's shooting size and position. By assigning an event ID based on this information and generating haptic metadata for controlling the haptic device 5, it is possible to present haptic stimuli even when watching sports videos in real time. Become.

最終的に、触覚提示信号生成装置1は、第3のメタデータ生成部1245により、現フレーム画像に対応して、人物動作認識部1244から得られる各人物及び人物以外の動オブジェクトの動きに関する情報、即ち現フレーム画像内の各人物の識別、位置座標(及び、本例では柔道競技としているため対象外となるが、チーム競技であればそのチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報を含む触覚メタデータ(衝撃提示用)を生成し、フレーム単位で制御ユニット4に出力する(ステップS12)。 Finally, the third metadata generation unit 1245 of the tactile sense presentation signal generation device 1 generates information about the movement of each person and moving objects other than the person obtained from the human movement recognition unit 1244 in correspondence with the current frame image. That is, an event indicating the identification of each person in the current frame image, the position coordinates (and the team classification in the case of a team game, although this example excludes judo because it is a judo game), and the type of movement of each person. ID, and tactile metadata (for impact presentation) including strength and time scale information for impact presentation indicating the timing and speed of actuating the tactile presentation device, and output to the control unit 4 in units of frames ( step S12).

(実験検証)
本発明に係る触覚提示信号生成装置1の有効性を示すため、評価実験を行った。
図9(a)は1フレーム画像例を模擬的に示した図であり、図9(b)は従来技術のボーン画像例、図9(c)は従来技術のSkl MHI(Skeleton Motion History Image)の画像例、図9(d)は本発明に係る骨格軌跡特徴画像(JTI)の画像例を示す図である。また、図10は、従来技術のボーン画像、従来技術のSkl MHI、及び本発明に係る骨格軌跡特徴画像(JTI)の人物動きの検出精度の比較評価を示す図である。
(Experimental verification)
An evaluation experiment was conducted to demonstrate the effectiveness of the tactile sense presentation signal generation device 1 according to the present invention.
FIG. 9(a) is a diagram schematically showing an example of one frame image, FIG. 9(b) is an example of a conventional bone image, and FIG. 9(c) is a Skl MHI (Skeleton Motion History Image) of the conventional technique. FIG. 9(d) is a diagram showing an image example of a skeletal trajectory feature image (JTI) according to the present invention. FIG. 10 is a diagram showing a comparative evaluation of human motion detection accuracy of the bone image of the prior art, the Skl MHI of the prior art, and the skeletal trajectory feature image (JTI) according to the present invention.

まず、比較評価する前に、柔道の試合映像(図9(a)参照)から、従来技術のボーン画像(図9(b)参照)、従来技術のSkl MHI(図9(c)参照)、及び本発明に係る骨格軌跡特徴画像(JTI)(図9(d)参照)について、正例、負例それぞれ約2,000枚の画像を作成して、それぞれCNNによる事前学習を行った。 First, before comparative evaluation, from the judo match video (see FIG. 9(a)), the bone image of the conventional technology (see FIG. 9(b)), the Skl MHI of the conventional technology (see FIG. 9(c)), Approximately 2,000 positive and negative images were created for each of the skeletal trajectory feature images (JTI) (see FIG. 9D) according to the present invention, and pre-learning was performed by CNN.

そして、別の試合映像で識別した結果を図10に示している。図10では、「立ち合い」、「投げ」、「寝技」、「待て」の4つの試合状況(シーン分類)の識別結果と、「投げ」動作の検出結果の比較として、適合率、再現率、及びこれらの統合的指標であるF値(F-Measure)の値を示した。4つの試合状況(シーン分類)の状態の識別判定、及び「投げ」の検出精度のいずれの場合においても、本発明に係る骨格軌跡特徴画像(JTI)を用いて学習した場合が最もよい結果が得られた。従って、従来技術のボーン画像や、従来技術のSkl MHIを用いた動作認識よりも、本発明に係る骨格軌跡特徴画像(JTI)を用いる触覚提示信号生成装置1の有効性を確認できた。尚、Skl MHIについても骨格座標ごとに色分けを行って評価したが、それでも本発明に係る骨格軌跡特徴画像(JTI)を用いた方が動作認識の精度として向上する理由として、Skl MHI(ボーン画像も同様)では、各骨格を結ぶ接続線が動作認識に悪影響を及ぼしていると考えられる。 FIG. 10 shows the result of identification using another game video. In FIG. 10, the precision rate, recall rate, and the value of F value (F-Measure), which is an integrated index of these. In any of the four game situations (scene classification) state identification determination and "throw" detection accuracy, learning using the skeletal trajectory feature image (JTI) according to the present invention yields the best results. Got. Therefore, it was confirmed that the tactile sense presentation signal generation device 1 using the skeletal trajectory feature image (JTI) according to the present invention is more effective than motion recognition using the bone image of the prior art and the Skl MHI of the prior art. Skl MHI was also evaluated by color-coding for each skeletal coordinate. ), it is thought that the connecting lines connecting each skeleton have an adverse effect on motion recognition.

(制御ユニット)
図11は、本発明による一実施形態の映像触覚連動システム10における制御ユニット4及び触覚提示デバイス5の概略構成を示すブロック図である。制御ユニット4は、受信部41、解析部42、記憶部43、及びn(1以上の整数)個の駆動部44‐1~44‐nを備える。また、触覚提示デバイス5は、n(1以上の整数)個の振動アクチュエーター51‐1~51‐nを備える。
(Controller unit)
FIG. 11 is a block diagram showing a schematic configuration of the control unit 4 and the tactile sense presentation device 5 in the visual haptic interlocking system 10 according to one embodiment of the present invention. The control unit 4 includes a receiving section 41, an analyzing section 42, a storage section 43, and n (an integer equal to or greater than 1) driving sections 44-1 to 44-n. Further, the tactile sense presentation device 5 includes n (an integer equal to or greater than 1) vibration actuators 51-1 to 51-n.

受信部41は、触覚提示信号生成装置1から触覚提示信号を入力し、解析部42に出力する機能部である。触覚提示信号は、映像コンテンツの音声信号から抽出した低周波音声信号と、映像コンテンツの映像信号から生成した触覚メタデータを基にした音信号とをそれぞれ個別に利得調整し合成したものであり、当該触覚メタデータは、映像視点推定部12、物体検出部123、及び、イベント検出部124によって固有に生成される。特にイベント検出部124によって生成される触覚メタデータは、現フレーム画像内の各人物の識別、位置座標、(及びチーム競技であればそのチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報を含む。 The receiving unit 41 is a functional unit that inputs a tactile sense presentation signal from the tactile sense presentation signal generation device 1 and outputs the tactile sense presentation signal to the analysis unit 42 . The tactile presentation signal is obtained by synthesizing the low-frequency audio signal extracted from the audio signal of the video content and the audio signal based on the haptic metadata generated from the video signal of the video content by individually adjusting the gain. The haptic metadata is uniquely generated by the video viewpoint estimation unit 12 , the object detection unit 123 and the event detection unit 124 . In particular, the tactile metadata generated by the event detection unit 124 includes the identification of each person in the current frame image, the position coordinates, (and the team classification in the case of a team competition), the event ID indicating the type of movement of each person, and intensity and timescale information for the impact presentation that indicates when and how quickly to activate the tactile presentation device.

解析部42は、触覚提示信号生成装置1から得られる触覚提示信号を基に、記憶部43に記憶されている予め定めた駆動基準データを参照し、n個の駆動部44‐1~44‐nを介して、触覚提示デバイス5の各振動アクチュエーター51‐1~51‐nを駆動するよう制御する機能部である。例えば、解析部42は、イベント検出部124によって生成された触覚メタデータを基にした音信号における人物の識別、位置座標、(及びチーム分類)、各人物の動きの種別を示すイベントID、並びに、触覚提示デバイスを作動させるタイミング及び速さを示す衝撃提示用の強度及び時間尺の情報から、予め定めた駆動基準データを参照して、各振動アクチュエーター51‐1~51‐nの作動タイミング、強さ、及び動作時間を決定して駆動部44‐1~44‐nを駆動制御する。 Based on the tactile sense presentation signal obtained from the tactile sense presentation signal generation device 1, the analysis unit 42 refers to predetermined drive reference data stored in the storage unit 43, and generates n drive units 44-1 to 44- 51-1 to 51-n of the tactile presentation device 5 via .n. For example, the analysis unit 42 identifies the person in the sound signal based on the tactile metadata generated by the event detection unit 124, position coordinates (and team classification), an event ID indicating the type of movement of each person, and , the operating timing of each of the vibration actuators 51-1 to 51-n with reference to the predetermined drive reference data from information on the strength and timescale for presenting the impact indicating the timing and speed of operating the tactile presentation device; The intensity and operation time are determined to drive and control the drive units 44-1 to 44-n.

記憶部43は、触覚提示信号に基づいた駆動部44‐1~44‐nの駆動を制御するための予め定めた駆動基準データを記憶している。駆動基準データは、触覚提示信号を構成する低周波音声信号と、映像コンテンツの映像信号から生成した触覚メタデータを基にした音信号のそれぞれに対応付けられた触覚刺激としての振動アクチュエーター51‐1~51‐nの作動タイミング、強さ、及び動作時間について、予め定めたテーブル又は関数で表されている。また、記憶部43は、制御ユニット4の機能を実現するためのプログラムを記憶している。即ち、制御ユニット4を構成するコンピュータにより当該プログラムを読み出して実行することで、制御ユニット4の機能を実現する。 The storage unit 43 stores predetermined driving reference data for controlling driving of the driving units 44-1 to 44-n based on the tactile sense presentation signal. The drive reference data is a vibration actuator 51-1 as a tactile stimulus associated with a low-frequency audio signal forming a tactile presentation signal and a sound signal based on tactile metadata generated from a video signal of video content. . . . 51-n are expressed in a predetermined table or function for actuation timing, strength, and actuation time. The storage unit 43 also stores programs for realizing the functions of the control unit 4 . That is, the functions of the control unit 4 are realized by reading and executing the program by a computer that constitutes the control unit 4 .

駆動部44‐1~44‐nは、振動アクチュエーター51‐1~51‐nを駆動するドライバである。 The drive units 44-1 to 44-n are drivers that drive the vibration actuators 51-1 to 51-n.

このように、本実施形態の触覚提示信号生成装置1を備える映像触覚連動システム10によれば、映像と違和感のない音声入力による触覚刺激を提供しながら、特定のシーンで迫力ある刺激に変化させることができ、特に、映像信号から人物オブジェクトを自動抽出し、動的な人物オブジェクトに対応する触覚メタデータを同期して自動生成することができるので、触覚提示デバイス5と映像コンテンツにおける映像信号とを連動させることができるようになる。 As described above, according to the video-tactile sense interlocking system 10 including the tactile sense presentation signal generation device 1 of the present embodiment, while providing a tactile sense stimulus by voice input that does not feel out of place with video, the stimulus is changed to a powerful stimulus in a specific scene. In particular, the human object can be automatically extracted from the video signal, and the haptic metadata corresponding to the dynamic human object can be automatically generated in synchronization. can be linked.

柔道競技は、二人の選手が組み合って、「抑え込み」や「投げ」などの技を競うスポーツであり、各人物に衝撃が生じた瞬間や各人物の動きの状況変化を触覚提示デバイス51‐1~51‐nにより触覚刺激としてユーザに提示することで、より臨場感を高め、また視聴覚障害者にも試合状況を伝えることが可能である。 Judo is a sport in which two athletes grapple and compete in techniques such as "hold down" and "throw", and the tactile presentation device 51- 1 to 51-n are presented to the user as tactile stimuli, it is possible to enhance the sense of realism and convey the game situation to the visually impaired.

特に、柔道競技では、映像上で選手同士の重なりやオクルージョンが多数生じるため、各選手に生じる衝撃の種類に応じたタイミングと速さ以外にも、各選手の押し引きなどの組み合い、投げ等に係る動作状況を連続的に触覚提示できるようにすることで、視覚や聴覚の障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。 Especially in judo, there are many overlaps and occlusions between athletes on the video. By enabling the tactile presentation of such action situations continuously, the sense of urgency of the game can be conveyed to visually and hearing impaired people, and the sense of realism can be enhanced.

そこで、触覚提示デバイス5が例えば上述した「いす型触覚デバイス」で構成され、例えば2個の振動アクチュエーター51‐1,51‐2が設けられているときは、柔道競技を視聴するユーザは、「いす型触覚デバイス」に座るだけで、触覚提示信号に基づく振動刺激が提示される。制御ユニット4は、触覚提示信号生成装置1から得られる柔道競技に係る各人物オブジェクトOp1,Op2に生じる衝撃の種類に応じたタイミングと速さを示す各人物及び人物以外の動オブジェクトの動きに関する情報を含む触覚メタデータを基にした音信号により、各人物オブジェクトOp1,Op2に対応付けられた2個の振動アクチュエーター51‐1,51‐2の触覚提示を個別に制御する。ただし、制御ユニット4は、1台の振動アクチュエーターに対してのみ駆動制御する形態でもよいし、3台以上とした振動アクチュエーターに対して個別に駆動制御する形態でもよい。また、限定するものではないが、本例の制御ユニット4は、映像内の人物オブジェクトOp1(選手)の動きに対応した振動刺激は振動アクチュエーター51‐1で、人物オブジェクトOp2(選手)の動きに対応した振動刺激は振動アクチュエーター51‐2で提示するように分類して制御する構成とすることができる。 Therefore, when the tactile sense presentation device 5 is composed of, for example, the above-described "chair-type tactile device" and is provided with, for example, two vibration actuators 51-1 and 51-2, the user watching the judo competition can say, " Vibration stimulation based on tactile presentation signals is presented simply by sitting on the chair-type tactile device. The control unit 4 obtains from the tactile sense presentation signal generation device 1 information about the movement of each person and moving objects other than the person indicating the timing and speed according to the type of impact that occurs on each of the person objects Op1 and Op2 related to the judo competition. The sound signals based on the tactile metadata including . However, the control unit 4 may be configured to drive and control only one vibration actuator, or may be configured to individually drive and control three or more vibration actuators. In addition, although not limited thereto, the control unit 4 of the present example is configured such that the vibration stimulus corresponding to the movement of the human object Op1 (athlete) in the video is generated by the vibration actuator 51-1, and the vibration stimulation corresponding to the movement of the human object Op2 (athlete) in the video is The corresponding vibration stimulus can be classified and controlled so as to be presented by the vibration actuator 51-2.

尚、触覚提示デバイス5は、上述した「いす型触覚デバイス」、「キューブ型触覚デバイス」など、人間に対して触覚刺激を提示するものであれば任意の形態とすることができる。本例の触覚提示デバイス5は、制御ユニット4によって個別に駆動制御される複数のアクチュエーターを有するとしたが、別例として、触覚提示デバイス5は、1つのアクチュエーターを有するものとし、制御ユニット4によって個別に駆動制御される複数の触覚提示デバイス5としてもよい。本例では、制御ユニット4と触覚提示デバイス5の各振動アクチュエーター51‐1,51‐2との間は有線接続され、触覚提示信号生成装置1と制御ユニット4との間も有線接続されている形態を例に説明したが、それぞれ無線通信やネットワーク経由の通信で接続されている形態としてもよい。また、振動アクチュエーターとする代わりに、或いはこれに加えて、振動刺激の他、音信号に応じて変化する電磁気パルス刺激や、ペルチェ素子等を用いた温度刺激を提示するものでもよい。 The tactile sense presentation device 5 may be of any form, such as the above-described "chair-shaped haptic device" or "cube-shaped haptic device", as long as it presents a tactile stimulus to humans. The tactile presentation device 5 of this example has a plurality of actuators that are individually driven and controlled by the control unit 4. As another example, the tactile presentation device 5 has one actuator, and the control unit 4 A plurality of tactile presentation devices 5 that are individually driven and controlled may be used. In this example, the control unit 4 and the vibration actuators 51-1 and 51-2 of the tactile presentation device 5 are wired, and the tactile presentation signal generator 1 and the control unit 4 are also wired. Although the configuration has been described as an example, a configuration in which each is connected by wireless communication or communication via a network may be used. Instead of using a vibration actuator or in addition to this, it is also possible to present vibration stimulation, electromagnetic pulse stimulation that changes according to sound signals, or temperature stimulation using a Peltier device or the like.

従って、本実施形態の映像触覚連動システム10は、「投げ」のような動作イベント以外にも、選手の押し引きなどの状況を連続的に伝えることが可能となり、障害者にも試合の緊迫感を伝えることができ、また臨場感を高めることができる。 Therefore, the visual tactile sense interlocking system 10 of the present embodiment can continuously convey not only action events such as "throwing" but also situations such as the pushing and pulling of the players. can be conveyed, and the sense of presence can be enhanced.

以上のように、本発明による一実施形態の触覚提示信号生成装置1によれば、映像コンテンツにおける音声信号を振動刺激に変換する音声入力方式と、予め用意した触覚刺激を特定のタイミングで提示する触覚メタデータ方式の2つの方式を融合して、臨場感向上と、触覚による情報補償の双方を実現するとともに、人物を含む各物体の動きに関する触覚メタデータを高速・高精度に生成することができる。 As described above, according to the tactile sense presentation signal generation device 1 of one embodiment according to the present invention, an audio input method for converting an audio signal in a video content into a vibration stimulus and a tactile sense stimulus prepared in advance are presented at a specific timing. By fusing the two tactile metadata methods, it is possible to realize both realism improvement and tactile information compensation, and to generate tactile metadata related to the movement of each object, including people, at high speed and with high accuracy. can.

特に、本発明による一実施形態の触覚提示信号生成装置1によれば、映像コンテンツの映像信号から生成した触覚メタデータを基にした音信号を、映像コンテンツの音声信号に同期させて、映像信号のタイムライン上に配置することで、映像に対してずれ感を生じさせることなく、映像内のイベントの生起を触覚情報でも知覚させ、没入感を向上させることができる。また、映像コンテンツからリアルタイムに触覚メタデータを生成し音信号に変換して扱うようにすることで、触覚メタデータを基にした音信号及び低周波音声信号を含む触覚提示信号を、映像コンテンツとともに記録すれば、収録番組用として容易に編集できる。そして、映像と連動した触覚提示は、情報補償のみならず、没入感向上にも寄与するため、健常者も含めた多くの方々が楽しめるサービスとなる。 In particular, according to the tactile sense presentation signal generation device 1 of the embodiment of the present invention, the sound signal based on the haptic metadata generated from the video signal of the video content is synchronized with the audio signal of the video content to generate the video signal. By arranging it on the timeline, it is possible to perceive the occurrence of the event in the video with tactile information without causing a sense of deviation with respect to the video, and to improve the sense of immersion. In addition, by generating tactile metadata in real time from video content and converting it into sound signals, tactile presentation signals including sound signals and low-frequency audio signals based on haptic metadata can be generated together with video content. Once recorded, it can be easily edited for recorded programs. Tactile presentation linked to images contributes not only to information compensation, but also to an improvement in immersion, making it a service that can be enjoyed by many people, including those without disabilities.

ところで、従来のMotion History Image(MHI)と呼ばれる画像を解析することで、“腕を広げる”、“しゃがむ”、“手を上げる”など人物の基本的な動きを判定することが可能になるが、人物の関節の各部位を計測しているわけではないため、全身を使った大きな動作の認識に限られる。一方、本発明に係る骨格軌跡特徴画像(JTI)は、このMHIの改善版ともいえる画像特徴量を示す画像であり、各人物の骨格の軌跡、もしくはこれに加えて追跡対象となる人物以外の動オブジェクトの軌跡情報を描画したものとすることで、背景に含まれるノイズの影響を抑えた高精度な認識が可能となる。また、各人物の骨格座標の推移を利用して画像を作成しているため、全身運動のみならず、手や足の部分的な動作の認識も、高い精度で行うことができる。 By the way, by analyzing conventional images called Motion History Image (MHI), it is possible to determine the basic movements of a person such as "arms spread", "crouching", and "hands raised". , Since it does not measure each part of a person's joints, it is limited to recognizing large movements using the whole body. On the other hand, the skeletal trajectory feature image (JTI) according to the present invention is an image showing an image feature amount that can be said to be an improved version of this MHI. By drawing the trajectory information of the moving object, it is possible to perform highly accurate recognition while suppressing the influence of noise included in the background. In addition, since the image is created using the transition of the skeletal coordinates of each person, it is possible to recognize not only the movement of the whole body but also the partial movement of the hands and feet with high accuracy.

特に、骨格検出アルゴリズムは静止画単位での姿勢推定に留まるが、本発明に係る骨格軌跡特徴画像(JTI)は、各骨格位置の推移を軌跡特徴として扱い、この軌跡特徴量を1枚の画像で表現することにより、CNNによる動作の識別を可能としている。つまり、CNNでは困難であった時間軸方向の特徴を、本発明に係る骨格軌跡特徴画像(JTI)を入力として用いることで高精度な人物動きの動作認識を可能としている。 In particular, the skeleton detection algorithm is limited to posture estimation for each still image. By expressing with , it is possible to identify the motion by CNN. In other words, by using the skeletal trajectory feature image (JTI) according to the present invention as an input, the feature in the time axis direction, which was difficult with CNN, can be performed for highly accurate motion recognition of human motion.

また、本発明による一実施形態の触覚提示信号生成装置1によれば、人物骨格の動きを時系列に軌跡として示す静止画として扱うことができる骨格軌跡特徴画像(JTI)は、編集も容易である。また、CNNでも高精度な動作認識を可能となり、上述したイベント検出部124の具体例では、柔道の映像を例に説明したが、ボクシングやレスリングなど人物の動きが特徴的なスポーツ、或いはスポーツ以外の映像にも広く応用可能である。 Further, according to the tactile sense presentation signal generation device 1 of the embodiment of the present invention, the skeleton trajectory feature image (JTI), which can be handled as a still image showing the movement of the human skeleton as a trajectory in time series, can be easily edited. be. CNN also enables highly accurate motion recognition. In the specific example of the event detection unit 124 described above, judo video was explained as an example. It is also widely applicable to video images.

尚、上述した一実施形態の触覚提示信号生成装置1をコンピュータとして機能させることができ、当該コンピュータに、本発明に係る各構成要素を実現させるためのプログラムは、当該コンピュータの内部又は外部に備えられるメモリに記憶される。コンピュータに備えられる中央演算処理装置(CPU)などの制御で、各構成要素の機能を実現するための処理内容が記述されたプログラムを、適宜、メモリから読み込んで、本実施形態の触覚提示信号生成装置1の各構成要素の機能をコンピュータに実現させることができる。ここで、各構成要素の機能をハードウェアの一部で実現してもよい。 The tactile sense presentation signal generation device 1 of the above-described embodiment can be made to function as a computer, and a program for realizing each component according to the present invention in the computer is provided inside or outside the computer. stored in the memory By controlling a central processing unit (CPU) or the like provided in a computer, a program describing the processing details for realizing the function of each component is appropriately read from the memory to generate the tactile presentation signal of the present embodiment. The function of each component of the device 1 can be realized by a computer. Here, the function of each component may be realized by a part of hardware.

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した実施形態の例では、主として柔道競技の映像解析を例に説明したが、バドミントンや卓球、その他の様々なスポーツ種目、及びスポーツ以外の映像にも広く応用可能である。例えば、触覚情報を用いた放送、インターネット、パブリックビューイング、エンターテインメント、などのサービス性の向上に繋がる。また、スポーツ以外の例として、工場での触覚アラームへの応用や、監視カメラ映像解析に基づいたセキュリティシステムなど、様々な用途に応用することも可能である。従って、本発明は、前述の実施形態の例に限定されるものではなく、特許請求の範囲の記載によってのみ制限される。 Although the present invention has been described with reference to specific embodiments, the present invention is not limited to the above-described embodiments, and can be modified in various ways without departing from the technical idea thereof. For example, in the above-described embodiments, video analysis of judo competitions has been mainly described as an example. For example, it leads to improvement of services such as broadcasting, Internet, public viewing, and entertainment using tactile information. As examples other than sports, it is also possible to apply to various uses such as application to tactile alarms in factories and security systems based on surveillance camera image analysis. Accordingly, the present invention is not limited to the examples of embodiments described above, but only by the description of the appended claims.

本発明によれば、映像コンテンツの映像信号のみから自動生成した触覚メタデータを基にした音信号について音声信号を利用し映像信号に同期させて触覚提示デバイスを駆動するための触覚提示信号を自動生成し編集可能とすることができるので、触覚提示デバイスと映像を連動させる用途に有用である。 According to the present invention, a tactile presentation signal for driving a tactile presentation device is automatically generated in synchronization with a video signal using an audio signal based on haptic metadata automatically generated only from a video signal of video content. Since it can be generated and made editable, it is useful for linking a tactile presentation device and an image.

1 触覚提示信号生成装置
2 映像コンテンツ出力装置
3 ディスプレイ
4 制御ユニット
5 触覚提示デバイス
10 映像触覚連動システム
11 低周波音声抽出部
12 触覚メタデータ生成部
13 信号変換部
14 触覚刺激音声データデータベース(DB)
15 同期合成部
41 メタデータ受信部
42 解析部
43 記憶部
44‐1,44‐n 駆動部
51‐1,51‐n 振動アクチュエーター
121 複数フレーム抽出部
122 映像視点推定部
123 物体検出部
124 イベント検出部
1221 視点推定部
1222 映像動き認識部
1223 第1のメタデータ生成部
1231 動オブジェクト検出部
1232 物体動き認識部
1233 第2のメタデータ生成部
1241 人物骨格抽出部
1242 人物識別部
1243 骨格軌跡特徴画像生成部
1244 人物動作認識部
1245 第3のメタデータ生成部
1 tactile presentation signal generation device 2 video content output device 3 display 4 control unit 5 tactile presentation device 10 video tactile sense interlocking system 11 low frequency audio extractor 12 haptic metadata generator 13 signal converter 14 tactile stimulus audio data database (DB)
15 synchronous synthesizing unit 41 metadata receiving unit 42 analyzing unit 43 storage unit 44-1, 44-n driving unit 51-1, 51-n vibration actuator 121 multi-frame extracting unit 122 video viewpoint estimating unit 123 object detecting unit 124 event detection Unit 1221 Viewpoint estimation unit 1222 Video motion recognition unit 1223 First metadata generation unit 1231 Moving object detection unit 1232 Object motion recognition unit 1233 Second metadata generation unit 1241 Human skeleton extraction unit 1242 Person identification unit 1243 Skeletal trajectory feature image Generation unit 1244 Human action recognition unit 1245 Third metadata generation unit

Claims (10)

映像信号及び音声信号を有する映像コンテンツについて、前記映像コンテンツの映像信号のみからリアルタイムで高精度に触覚メタデータを自動生成し、当該触覚メタデータを基にした音信号について映像コンテンツの音声信号を利用し映像信号に同期させて触覚提示デバイスを駆動するための触覚提示信号を生成する触覚提示信号生成装置であって、
前記音声信号から所定周波数以下の低周波音声信号を抽出する低周波音声抽出部と、
前記映像信号について現フレーム画像と所定数の過去のフレーム画像を含む複数フレーム画像を抽出して映像解析を行い、一人称視点を基準にした映像の動き、現フレーム画像における物体の動き、及び少なくとも各人物の動オブジェクトの動きのうち1以上に関する情報を個別に示す、所定の触覚提示デバイスを作動させるための触覚メタデータを生成する触覚メタデータ生成部と、
各触覚メタデータについて予め定めた触覚刺激に対応する音信号に変換する信号変換部と、
前記低周波音声信号と、当該各触覚メタデータを基にした音信号について、それぞれ予め定めた所定値まで個別に利得調整し、前記低周波音声信号に同期させて合成することにより、所定の触覚提示デバイスを駆動するための触覚提示信号を生成する同期合成部と、
を備えることを特徴とする触覚提示信号生成装置。
For video content having a video signal and an audio signal, haptic metadata is automatically generated in real time with high precision only from the video signal of the video content, and the audio signal of the video content is used for the audio signal based on the haptic metadata. A tactile presentation signal generation device for generating a tactile presentation signal for driving a tactile presentation device in synchronization with a video signal,
a low-frequency audio extraction unit that extracts a low-frequency audio signal having a predetermined frequency or less from the audio signal;
A plurality of frame images including a current frame image and a predetermined number of past frame images are extracted from the video signal and video analysis is performed to determine the motion of the video based on the first person viewpoint, the motion of an object in the current frame image, and at least each of the a haptic metadata generator that generates haptic metadata for activating a predetermined haptic presentation device that individually indicates information about one or more of the motions of the moving object of the person;
a signal conversion unit that converts each tactile metadata into a sound signal corresponding to a predetermined tactile stimulus;
The low-frequency audio signal and the sound signal based on each of the haptic metadata are individually adjusted to a predetermined value, and synthesized in synchronization with the low-frequency audio signal to obtain a predetermined tactile sensation. a synchronous synthesizer that generates a haptic presentation signal for driving a presentation device;
A tactile sense presentation signal generation device comprising:
前記触覚メタデータ生成部は、前記一人称視点を基準にした映像の動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々を用いたオプティカルフロー計測によりオプティカルフロー画像を生成し、このオプティカルフロー画像を基に一人称視点映像か否かを判定し、一人称視点映像であると判定されたときのみ、そのオプティカルフロー画像から一人称視点を基準にした映像の動きを推定し、一人称視点を基準にした映像の動きを示す少なくとも一人称視点の方向と映像の移動速度を含む触覚メタデータを生成する映像動き認識部を備えることを特徴とする、請求項1に記載の触覚提示信号生成装置。 The haptic metadata generation unit generates an optical flow image by optical flow measurement using each of the plurality of frame images in order to generate haptic metadata indicating motion of the video based on the first-person viewpoint. Based on the optical flow image, it is determined whether or not it is a first-person viewpoint video, and only when it is determined to be a first-person viewpoint video, the motion of the video based on the first-person viewpoint is estimated from the optical flow image, and the first-person viewpoint is used as a reference. 2. The tactile presentation signal generating apparatus according to claim 1, further comprising a video motion recognition unit for generating haptic metadata including at least a first-person viewpoint direction and a moving speed of the video indicating motion of the video. 前記触覚メタデータ生成部は、前記現フレーム画像における物体の動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々を用いた隣接フレーム間の差分画像を生成し、この差分画像を基に、現フレーム画像における物体に関する動オブジェクトの検出処理を行い、現フレーム画像における物体の動きが得られたときのみ、その現フレーム画像における物体の動きを示す少なくとも各物体の識別、各物体のサイズ、各物体の背景に対する相対速度、及び現フレーム画像における物体間の距離を含む触覚メタデータを生成する物体動き認識部を備えることを特徴とする、請求項1又は2に記載の触覚提示信号生成装置。 The haptic metadata generation unit generates a difference image between adjacent frames using each of the plurality of frame images in order to generate haptic metadata indicating movement of an object in the current frame image, and generates the difference image. Based on this, a moving object detection process is performed on the object in the current frame image, and only when the movement of the object in the current frame image is obtained, at least each object indicating the movement of the object in the current frame image is identified, and each object is identified. 3. A tactile presentation signal according to claim 1 or 2, characterized by comprising an object motion recognition unit for generating tactile metadata including size, relative velocity of each object with respect to the background, and distance between objects in the current frame image. generator. 前記触覚メタデータ生成部は、前記少なくとも各人物の動オブジェクトの動きを示す触覚メタデータを生成するために、当該複数フレーム画像の各々について、骨格検出アルゴリズムに基づき、各人物オブジェクトの第1の骨格座標集合を生成するとともに、前記第1の骨格座標集合を基に探索範囲を可変設定し、各人物オブジェクトの骨格の位置及びサイズと、その周辺画像情報を抽出することにより人物オブジェクトを識別し、人物IDを付与した第2の骨格座標集合を生成し、前記現フレーム画像を基準に、当該複数フレーム画像の各々における前記第2の骨格座標集合を基に、識別した人物骨格毎の動きの方向のみを示す1枚の骨格軌跡特徴画像を生成し、前記骨格軌跡特徴画像を入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識し、所定の触覚提示デバイスを作動させる少なくとも各人物の動オブジェクトの動きに関する情報を検出し、前記現フレーム画像に対応して、当該少なくとも各人物の動オブジェクトの動きに関する情報を含む触覚メタデータを生成するイベント検出部を備えることを特徴とする、請求項1から3のいずれか一項に記載の触覚提示信号生成装置。 The haptic metadata generation unit generates haptic metadata indicating motion of the moving object of at least each person, for each of the plurality of frame images, based on a skeleton detection algorithm, a first skeleton of each person object. identifying a person object by generating a coordinate set, variably setting a search range based on the first skeleton coordinate set, and extracting the position and size of the skeleton of each person object and its peripheral image information; generating a second set of skeletal coordinates to which a person ID is assigned, and using the current frame image as a reference, and based on the second set of skeletal coordinates in each of the plurality of frame images; A single skeletal trajectory feature image is generated that shows only the skeletal trajectory, and a convolutional neural network that receives the skeletal trajectory feature image as an input recognizes a specific motion of the person and activates a predetermined tactile presentation device. At least each person's moving object and an event detection unit for generating tactile metadata including information about the movement of at least each person's moving object corresponding to the current frame image. 4. The tactile sense presentation signal generation device according to any one of 3 to 3. 前記イベント検出部は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標ごとに連結した軌跡を描画し、且つこの描画の際に、過去に向かうほど輝度を下げるか、又は上げて描画して生成した1枚の画像とすることを特徴とする、請求項4に記載の触覚提示信号生成装置。 The event detection unit draws, as the skeletal trajectory feature image, a trajectory that connects the skeletal coordinates of each person in the multi-frame images, and during this drawing, the luminance decreases or increases toward the past. 5. The tactile sense presentation signal generation device according to claim 4, wherein the tactile sensation presentation signal generation device is characterized in that the tactile sensation presentation signal generation device is characterized in that the image is one image generated by drawing with the tactile sensation presentation signal. 前記イベント検出部は、前記骨格軌跡特徴画像として、当該複数フレーム画像における各人物の骨格座標について、各人物に対し共通又は区別して、各人物の骨格座標ごとに色分けし、各人物の骨格座標ごとの動きをフレーム単位で時系列に階調するよう描画して生成した1枚の画像とすることを特徴とする、請求項4又は5に記載の触覚提示信号生成装置。 The event detection unit, as the skeletal trajectory feature image, color-codes the skeletal coordinates of each person in the plurality of frame images in common or separately for each person, and color-codes each person's skeletal coordinates. 6. The tactile sense presentation signal generation device according to claim 4, wherein the movement of the tactile sensation presentation signal is a single image generated by drawing the motion of each frame in a time-series gradation. 前記イベント検出部は、前記探索範囲として、最大で人物骨格の全体を囲む人物探索範囲に限定し、最小で人物骨格のうち所定領域を注目探索範囲として定めた絞り込みによる可変設定を行い、状態推定アルゴリズムで得られる人物の骨格の状態遷移推定値に基づいて、少なくとも前記注目探索範囲を含むように前記探索範囲を決定して、当該人物オブジェクトを識別する処理を行う手段を有することを特徴とする、請求項4から6のいずれか一項に記載の触覚提示信号生成装置。 The event detection unit limits the search range to a maximum human search range that encloses the entire human skeleton, and performs variable setting by narrowing down to a minimum specified region of the human skeleton as a focused search range, and performs state estimation. The apparatus is characterized by having means for determining the search range so as to include at least the attention search range based on the state transition estimated value of the skeleton of the person obtained by the algorithm, and performing processing for identifying the person object. 7. The haptic presentation signal generation device according to any one of claims 4 to 6. 前記イベント検出部は、当該複数フレーム画像の各々を用いて隣接フレーム間の差分画像を基に動オブジェクトを検出し、各差分画像から検出した動オブジェクトのうち前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像と対比して人物以外の動オブジェクトを選定し、前記人物以外の動オブジェクトについて、各差分画像から得られる座標位置、大きさ、移動方向を要素とし連結した動オブジェクト軌跡画像を生成する動オブジェクト検出手段を備え、前記識別した人物骨格毎の動きの方向のみを示す骨格軌跡特徴画像上に、前記動オブジェクト軌跡画像を追加して合成したものを入力とする畳み込みニューラルネットワークにより、人物の特定動作を認識することを特徴とする、請求項4から7のいずれか一項に記載の触覚提示信号生成装置。 The event detection unit detects a moving object based on a difference image between adjacent frames using each of the plurality of frame images, and detects a movement direction of each of the identified human skeletons among the moving objects detected from each difference image. A moving object other than a person is selected by comparing with a skeletal trajectory feature image showing only the human body, and the moving object trajectory is connected using the coordinate position, size, and moving direction obtained from each difference image as elements for the moving object other than the person. A convolutional neural network comprising moving object detection means for generating an image, and receiving as an input a combination of said moving object trajectory image added to said skeletal trajectory feature image showing only the direction of movement of said identified human skeleton. 8. The tactile sense presentation signal generation device according to any one of claims 4 to 7, wherein the tactile sense presentation signal generation device according to any one of claims 4 to 7, wherein a specific motion of a person is recognized by: 請求項1から8のいずれか一項に記載の触覚提示信号生成装置と、
触覚刺激を提示する所定の触覚提示デバイスと、
前記触覚提示信号生成装置から得られる触覚提示信号を基に、予め定めた駆動基準データを参照し、前記所定の触覚提示デバイスを駆動するよう制御する制御ユニットと、
を備えることを特徴とする映像触覚連動システム。
a tactile sense presentation signal generation device according to any one of claims 1 to 8;
a predetermined tactile presentation device that presents a tactile stimulus;
a control unit that refers to predetermined drive reference data based on the tactile sense presentation signal obtained from the tactile sense presentation signal generation device, and controls the predetermined tactile sense presentation device to be driven;
A video-tactile interlocking system characterized by comprising:
コンピュータを、請求項1から8のいずれか一項に記載の触覚提示信号生成装置として機能させるためのプログラム。 A program for causing a computer to function as the tactile presentation signal generation device according to any one of claims 1 to 8.
JP2022018175A 2022-02-08 2022-02-08 Tactile sense presentation signal generation device, video tactile sense interlocking system, and program Pending JP2023115775A (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022018175A JP2023115775A (en) 2022-02-08 2022-02-08 Tactile sense presentation signal generation device, video tactile sense interlocking system, and program

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022018175A JP2023115775A (en) 2022-02-08 2022-02-08 Tactile sense presentation signal generation device, video tactile sense interlocking system, and program

Publications (1)

Publication Number Publication Date
JP2023115775A true JP2023115775A (en) 2023-08-21

Family

ID=87576535

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022018175A Pending JP2023115775A (en) 2022-02-08 2022-02-08 Tactile sense presentation signal generation device, video tactile sense interlocking system, and program

Country Status (1)

Country Link
JP (1) JP2023115775A (en)

Similar Documents

Publication Publication Date Title
US11132533B2 (en) Systems and methods for creating target motion, capturing motion, analyzing motion, and improving motion
US20220038777A1 (en) Video distribution system, video distribution method, and video distribution program
US9046919B2 (en) Wearable user interface device, system, and method of use
EP2840463A1 (en) Haptically enabled viewing of sporting events
JP2013539565A (en) User tracking feedback
WO2013035125A1 (en) Exercise assistance system and network system
JPH10153946A (en) Sensation information presenting device
JP2016047207A (en) Feedback provision method, system, and analysis device
WO2018203453A1 (en) Information processing device, information processing method, and program
JP7078577B2 (en) Operational similarity evaluation device, method and program
US11941177B2 (en) Information processing device and information processing terminal
WO2021039857A1 (en) Video generation device
JP6596452B2 (en) Display device, display method and display program thereof, and entertainment facility
CN110989839B (en) System and method for man-machine fight
JP2023115775A (en) Tactile sense presentation signal generation device, video tactile sense interlocking system, and program
US20240048934A1 (en) Interactive mixed reality audio technology
WO2020026443A1 (en) Vibration control system for haptic representation, vibration generating device for haptic representation, vibration control device for haptic representation, and vibration control method for haptic representation
JP7054276B2 (en) Physical activity support system, method, and program
US11331551B2 (en) Augmented extended realm system
US20230009322A1 (en) Information processing device, information processing terminal, and program
US20230033892A1 (en) Information processing device and information processing terminal
KR102495213B1 (en) Apparatus and method for experiencing augmented reality-based screen sports
US20230007232A1 (en) Information processing device and information processing method
JP7344096B2 (en) Haptic metadata generation device, video-tactile interlocking system, and program
JP2022062313A (en) Tactile sensation meta data generation apparatus, video tactile sensation linkage system and program