JP2024017905A

JP2024017905A - 触覚提示装置及びプログラム

Info

Publication number: JP2024017905A
Application number: JP2022120857A
Authority: JP
Inventors: 桃子佐々木; Momoko Sasaki; 貴裕望月; Takahiro Mochizuki; 正樹高橋; Masaki Takahashi
Original assignee: Nippon Hoso Kyokai NHK
Current assignee: Japan Broadcasting Corp
Priority date: 2022-07-28
Filing date: 2022-07-28
Publication date: 2024-02-08

Abstract

【課題】視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する。【解決手段】触覚提示装置１の映像解析部１１は、映像Ｅをサンプリングして時系列の複数のフレームを取得し、複数のフレームのそれぞれについて、１または複数の物体の矩形座標を検出し、面積が最大の物体の矩形データｖ（矩形中心の移動量ｖ1（ｎ）、矩形面積ｖ2（ｎ）及び矩形拡大率ｖ3（ｎ））を算出し、最大矩形データｖmaxを抽出し、矩形データｖ及び最大矩形データｖmaxに基づいて音量増幅量ａ（ｎ）を算出する。音量制御部１２は、映像Ｅから低周波音声信号Ｓ等を抽出し、低周波音声信号Ｓの音量Ａに音量増幅量ａ（ｎ）を乗算することで、音量Ａを増幅した新たな低周波音声信号Ｓ’を生成する。触覚提示部１３は、低周波音声信号Ｓ’を触覚デバイス７へ出力する。【選択図】図１

Description

本発明は、映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置及びプログラムに関する。

従来、映像は主として視覚及び聴覚に関するメディアであるが、第三の感覚として触覚刺激を提示する技術が注目を浴びている。例えば、音楽と連動した触覚刺激を提示する仕組みを椅子に設けた体感音響システムが知られており、また、音を振動に変換する触覚デバイスも知られている。

具体的には、この体感音響システムは、椅子に振動子を組み込んでおき、音楽から低音成分を抽出し、振動子により低音成分を振動の触覚情報に変換することで、音楽の聴取者に対し振動の触覚刺激を提示するものである（例えば特許文献１を参照）。

また、振動子を椅子に組み込んだ体感音響システムの他、テーマパーク、映画館等において、従来の映像音声に加え、振動等の触覚刺激、及び移動感等の体性感覚刺激を提示する技術も知られている。また、放送通信連携サービスを用いることで、テレビ放送の映像音声に加え、収録した振動の触覚情報を通信経由で伝送する技術も知られている。

また、視覚的なディスプレイを用いるゲーム装置において、視的表示と共に、プレイヤーに対し体感を与える技術も知られている（例えば特許文献２を参照）。具体的には、このゲーム装置は、特定の視的表示のタイミングにて、ハイパワーアンプで増幅された信号を低域スピーカへ出力することで、低域スピーカにより、低域音源となる体感をプレイヤーへ提示するものである。

また、体感音響システムにおいて、長時間利用しても、視聴者に対し不快感または圧迫感を生じさせることのない技術が知られている（例えば特許文献３を参照）。具体的には、この体感音響システムは、背もたれ及び座部を有するシートと、入力された音声信号を帯域分割して第１の音声信号及び第２の音声信号を出力する帯域分割回路と、第１の音声信号に応じて振動すると共に、振動方向が背もたれのユーザ側表面に対して平行となるように、背もたれ内に配置された第１の振動素子と、第２の音声信号に応じて振動すると共に、振動方向が座部のユーザ側表面に対して平行となるように、座部内に配置された第２の振動素子とを有するものである。

このように、映像を視聴しているときに、視覚及び聴覚に加え、第三の感覚である触覚にも刺激を与えることにより、より没入感及び臨場感の高い映像視聴を実現することができる。つまり、音声信号を入力して触覚情報に変換し、連続的に触覚刺激を提示することにより、映像コンテンツへの没入感及び臨場感を高めることができる。

このような音声信号を触覚情報に変換し、触覚刺激を視聴者へ提示する試みは、以前から行われている。以下、音声信号を入力して触覚情報に変換し、触覚刺激を提示する方式を「音声入力方式」という。

この「音声入力方式」の例として、いす型触覚提示システムがある。このいす型触覚提示システムは、フレキシブルディスプレイにより１８０度の視野角に表示したトラム等の車両の映像に連動し、いす型触覚デバイスが、音声信号を触覚情報に変換して触覚刺激を提示する。これにより、フレキシブルディスプレイに表示された映像からの視覚刺激、並びにいすの座面及び足元からの振動の触覚刺激にて、高い没入感を得ることができる。

特開平３－１０２４９９号公報特開平６－３３９５７６号公報特開２００８－１４１４７７号公報

前述の体感音響システムによる音声入力方式は、音声信号を触覚情報に変換し、触覚刺激を提示するものである。この音声入力方式では、実際の音声をベースにしているため、映像音声に対して違和感のない触覚刺激を提示することができる。

しかしながら、実際の音声には、環境音及びＢＧＭ等の背景音が含まれていることが多いため、実際の音声を用いたとして、必ずしも適切な振動を得ることができるとは限らない。

ここで、例えば映像内の動物等の動きに合わせて振動を制御することができれば、迫力があり、かつ没入感の高い体験を提供することができると考えられる。

そこで、本発明は前記課題を解決するためになされたものであり、その目的は、視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成する触覚提示装置及びプログラムを提供することにある。

前記課題を解決するために、請求項１の触覚提示装置は、映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のＮＮ（ニューラルネットワーク）を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも１つのデータを算出し、前記少なくとも１つのデータに基づいて音量増幅量を算出する映像解析部と、前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部と、前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、を備えたことを特徴とする。

また、請求項２の触覚提示装置は、請求項１に記載の触覚提示装置において、前記映像解析部が、前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて前記物体を検出し、前記物体の移動量、面積及び拡大率を算出し、前記物体の移動量、面積及び拡大率に基づいて前記音量増幅量を算出する、ことを特徴とする。

また、請求項３の触覚提示装置は、請求項２に記載の触覚提示装置において、前記映像解析部が、前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて１または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記１または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第１の矩形データ、当該物体の面積に関する第２の矩形データ及び当該物体の拡大率に関する第３の矩形データを算出する矩形算出部と、前記複数のフレームにおける前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データから、それぞれ第１の矩形データの最大値、第２の矩形の最大値及び第３の矩形データの最大値を抽出する最大値抽出部と、前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データを、前記最大値抽出部により抽出された前記第１の矩形データの最大値、前記第２の矩形データの最大値及び前記第３の矩形データの最大値でそれぞれ正規化し、正規化後の第１の矩形データ、第２の矩形データ及び第３の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、を備えたことを特徴とする。

また、請求項４の触覚提示装置は、請求項２に記載の触覚提示装置において、前記映像解析部が、前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて１または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記１または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第１の矩形データ、当該物体の面積に関する第２の矩形データ及び当該物体の拡大率に関する第３の矩形データを算出する矩形算出部と、前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データを、前記第１の矩形データの予め設定された最大値、前記第２の矩形データの予め設定された最大値及び前記第３の矩形データの予め設定された最大値でそれぞれ正規化し、正規化後の第１の矩形データ、第２の矩形データ及び第３の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、を備えたことを特徴とする。

また、請求項５の触覚提示装置は、請求項１から４までのいずれか一項に記載の触覚提示装置において、前記音量制御部が、前記映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、前記映像解析部により算出された前記フレームについての前記音量増幅量を、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号に乗算し、新たな低周波音声信号を生成する音量増幅制御部と、前記音量増幅制御部により生成された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、前記触覚提示部が、前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする。

さらに、請求項６のプログラムは、映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のＮＮ（ニューラルネットワーク）を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも１つのデータを算出し、前記少なくとも１つのデータに基づいて音量増幅量を算出する映像解析部、前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部、及び、前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させることを特徴とする。

以上のように、本発明によれば、視聴者が映像を視聴する際に、没入感向上に寄与する触覚刺激を提示するための情報を生成することができる。

本発明の実施形態による触覚提示装置の構成例を示すブロック図である。図１に示す触覚提示装置の処理例を示すフローチャートである。映像解析部の構成例を示すブロック図である。図３に示す映像解析部の処理例を示すフローチャートである。音量増幅量算出処理部の構成例を示すブロック図である。音量制御部の構成例を示すブロック図である。図６に示す音量制御部の処理例を示すフローチャートである。５．１ｃｈ形式の映像Ｅを再生する場合の触覚提示部の構成例を示す図である。映像Ｅのフレームの例及び矩形座標ｋ１，ｋ２，ｋ３の例を示す図である。音量増幅量ａ（ｎ）の算出結果を示す図である。

以下、本発明を実施するための形態について図面を用いて詳細に説明する。
〔触覚提示装置〕
図１は、本発明の実施形態による触覚提示装置の構成例を示すブロック図であり、図２は、図１に示す触覚提示装置の処理例を示すフローチャートである。

この触覚提示装置１は、映像解析部１１、音量制御部１２及び触覚提示部１３を備えている。触覚提示装置１は、映像Ｅから物体の移動量等に比例する音量増幅量ａを算出し、音量増幅量ａに基づいて、振動の元となる低周波音声信号Ｓの音量を制御して音量制御済映像Ｅ’を生成し、音量制御済映像Ｅ’から制御後の低周波音声信号Ｓ’を抽出して触覚デバイス７へ出力する。これにより、視聴者による映像Ｅの視聴時の没入感を向上させることができる。

映像解析部１１は、１または複数の物体を含む映像Ｅを入力する（ステップＳ２０１）。そして、映像解析部１１は、映像Ｅをサンプリングし、映像Ｅに含まれる時系列の複数のフレームのそれぞれについて、１または複数の物体を検出し、面積が最大の物体を選定し、当該物体の移動量、面積及び拡大率に関する矩形データｖを算出する（ステップＳ２０２）。

映像Ｅに含まれる時系列の複数のフレームは、映像Ｅを構成する全てのフレームであってもよいし、所定間隔でサンプリングされたフレーム群であってもよい。

映像解析部１１は、複数のフレームのそれぞれについて、矩形データｖに基づいて、移動量等に比例する音量増幅量ａを算出する（ステップＳ２０３）。そして、映像解析部１１は、音量増幅量ａを音量制御部１２に出力する。

これにより、映像Ｅの最初のフレームから最後のフレームまでの間で、映像Ｅに含まれる時系列の複数のフレームのそれぞれについて、矩形データｖが算出され、音量増幅量ａが算出される。映像解析部１１の詳細については後述する。

音量制御部１２は、映像解析部１１からサンプリングされたフレーム毎の音量増幅量ａを入力し、音量増幅量ａを後述するメモリ４１に格納する（ステップＳ２０４）。これにより、映像Ｅに含まれる複数のフレームのそれぞれについての音量増幅量ａが、メモリ４１に格納される。

音量制御部１２は、視聴者による操作に従い、映像Ｅ（映像解析部１１が入力した映像Ｅと同じ映像）の視聴開始の操作があったか否かを判定する（ステップＳ２０５）。音量制御部１２は、ステップＳ２０５において、視聴開始の操作がないと判定した場合（ステップＳ２０５：Ｎ）、当該操作があるまで待機する。

音量制御部１２は、ステップＳ２０５において、視聴開始の操作があったと判定した場合（ステップＳ２０５：Ｙ）、映像Ｅを入力する（ステップＳ２０６）。そして、音量制御部１２は、映像Ｅから、低周波音声信号Ｓ、映像信号、及び低周波音声信号Ｓ以外の音声信号を抽出する（ステップＳ２０７）。

例えば映像Ｅに、低周波のチャンネルの音声信号が含まれる場合、音量制御部１２は、映像Ｅから当該チャンネルの音声信号を取り出すことで、当該チャンネルの音声信号を低周波音声信号Ｓとして抽出する。また、映像Ｅが映像信号及び音声信号からなり、音声信号が高周波成分及び低周波成分を含む信号である場合、音量制御部１２は、映像Ｅに含まれる音声信号から低周波成分を取り出すことにより、低周波成分を低周波音声信号Ｓとして抽出する。

音量制御部１２は、後述するメモリ４１から、ステップＳ２０７にて抽出が行われた映像Ｅの低周波音声信号Ｓに対応する映像信号のフレームにおける音量増幅量ａを読み出す（ステップＳ２０８）。これにより、低周波音声信号Ｓに対応して、メモリ４１に格納された音量増幅量ａが順番に読み出される。

音量制御部１２は、メモリ４１から読み出された音量増幅量ａに基づいて、当該音量増幅量ａのフレームに対応する低周波音声信号Ｓの音量Ａを増幅することで、新たな低周波音声信号Ｓ’を生成する（ステップＳ２０９）。ここで、音量増幅量ａに対応する低周波音声信号Ｓとは、音量増幅量ａのフレームから当該フレームの次のフレーム（メモリ４１に格納された複数のフレームのうち当該フレームの次のフレーム）の直前までの間の音声信号である。

ここで、矩形データｖの値が大きいほど、音量増幅量ａの値も大きくなり、矩形データｖの値が小さいほど、音量増幅量ａの値も小さくなる。矩形データｖは、物体の移動量、面積及び拡大率に関するデータであるため、これらのデータが大きいほど、音量増幅量ａの値も大きくなり、これらのデータが小さいほど、音量増幅量ａの値も小さくなる。

そして、音量増幅量ａの値が大きいほど、増幅後の新たな低周波音声信号Ｓ’の音量Ａ_newは、増幅前の音量Ａよりも一層大きくなり、音量増幅量ａの値が小さいほど、増幅後の新たな低周波音声信号Ｓ’の音量Ａ_newは、増幅前の音量Ａよりも一層小さくなる。

つまり、物体の移動量、面積及び拡大率が大きいほど、増幅後の新たな低周波音声信号Ｓ’の音量Ａ_newは大きくなる。また、物体の移動量、面積及び拡大率が小さいほど、増幅後の新たな低周波音声信号Ｓ’の音量Ａ_newは小さくなる。

音量制御部１２は、ステップＳ２０９にて生成された低周波音声信号Ｓ’、並びにステップＳ２０７にて抽出された映像信号、及び低周波音声信号Ｓ以外の音声信号を合成することで、音量制御済映像Ｅ’を求める（ステップＳ２１０）。そして、音量制御部１２は、音量制御済映像Ｅ’を触覚提示部１３に出力する。音量制御部１２の詳細については後述する。

触覚提示部１３は、音量制御部１２から音量制御済映像Ｅ’を入力し、音量制御済映像Ｅ’から低周波音声信号Ｓ’を抽出し、低周波音声信号Ｓ’を触覚デバイス７へ出力する（ステップＳ２１１）。触覚提示部１３の詳細については後述する。

これにより、物体の移動量、面積及び拡大率が大きいほど、触覚デバイス７には、音量Ａを大きくした低周波音声信号Ｓ’が入力され、振動を大きくすることができる。一方、物体の移動量、面積及び拡大率が小さいほど、触覚デバイス７には、音量Ａを小さくした低周波音声信号Ｓ’が入力され、振動を小さくすることができる。つまり、映像Ｅ内の物体（例えば動物）の動き等に合わせて振動を制御することができ、迫力があり、かつ没入感の高い体験を視聴者に提供することができる。

したがって、映像Ｅを視聴する際に、触覚提示装置１により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、映像Ｅ内の物体の動き等に合わせて振動刺激を受けることができ、没入感を向上させることができる。尚、図１及び図２においては、音量増幅量ａが映像解析部１１から音量制御部１２へ出力されるが、後述する図３等においては、音量増幅量ａ（ｎ）が出力されるものとして説明する。ｎはフレームの番号を示す。

（映像解析部１１）
次に、図１に示した映像解析部１１について詳細に説明する。図３は、映像解析部１１の構成例を示すブロック図であり、図４は、図３に示す映像解析部１１の処理例を示すフローチャートである。

この映像解析部１１は、フレームサンプリング処理部２１、物体検出処理部２２及び音量増幅量算出処理部２３を備えている。

フレームサンプリング処理部２１は、映像Ｅを入力し（ステップＳ４０１）、映像Ｅを、所定間隔にて時系列の複数のフレームにサンプリングする（ステップＳ４０２）。所定間隔にてサンプリングすることにより、以降の処理の計算等の負荷を低減することができる。ここで、フレームサンプリング処理部２１は、映像Ｅを構成する全てのフレームにサンプリングしてもよい。

フレームサンプリング処理部２１は、サンプリング後の複数のフレームのそれぞれ（フレーム０，・・・，ｎ，・・・，Ｎ）を、物体検出処理部２２に出力する。Ｎは１以上の整数であり、ｎは０≦ｎ≦Ｎである。フレームｎは、フレーム番号がｎのフレームを示す。

物体検出処理部２２は、フレームサンプリング処理部２１から複数のフレームのそれぞれを入力する。そして、物体検出処理部２２は、複数のフレームのそれぞれについて、所定のＮＮ（ニューラルネットワーク）を用いて、当該フレームに含まれる物体を検出し、検出した１または複数の物体毎の矩形座標及び物体毎の識別クラスを推定する（ステップＳ４０３）。そして、物体検出処理部２２は、当該フレームに含まれる物体毎の矩形座標を音量増幅量算出処理部２３に出力する。

矩形座標は、物体を最大限に含む矩形を特定するための座標であり、例えば左上頂点の座標値及び右下頂点の座標値からなる。この場合、矩形座標は、左上頂点の座標値、ｘ軸方向（横方向）の幅及びｙ軸方向（縦方向）の高さからなるようにしてもよい。

これにより、Ｎ枚のフレームのそれぞれについて、物体毎の矩形座標が得られる（フレーム０についての物体毎の矩形座標、・・・、フレームｎについての物体毎の矩形座標、・・・、フレームＮについての物体毎の矩形座標が得られる）。

尚、物体検出処理部２２が用いるＮＮは、特定のネットワーク構成に限定されない。例えば、以下の文献に示す物体検出モデルと同様の構成、またはこれらのアーキテクチャに基づいて改良したものが用いられる。
［非特許文献］ Ge Zheng, et al.,“Yolox: Exceeding yolo series in 2021.”, arXiv preprint arXiv:2107.08430 (2021).

図９は、映像Ｅのフレームの例及び矩形座標ｋ１，ｋ２，ｋ３の例を示す図である。物体検出処理部２２により、映像Ｅのフレームについて、ＮＮを用いて当該フレームに含まれる３つの物体が検出され、それぞれの物体を含む矩形座標ｋ１，ｋ２，ｋ３及び物体の識別クラス（この例では、全ての物体の識別クラス「象」）が推定される。

図３及び図４に戻って、音量増幅量算出処理部２３は、複数のフレームのそれぞれについて、物体毎の矩形座標を入力する。そして、音量増幅量算出処理部２３は、後述するステップＳ４０４～Ｓ４０９の処理を行う。

図５は、音量増幅量算出処理部２３の構成例を示すブロック図である。この音量増幅量算出処理部２３は、物体選定部３１、矩形算出部３２、メモリ３３、最大値抽出部３４及び音量増幅量算出部３５を備えている。

図４及び図５を参照して、物体選定部３１は、複数のフレームのそれぞれについて、物体毎の矩形座標を入力し、物体毎の矩形座標に基づいて物体毎の矩形面積を算出し、当該フレームに含まれる１または複数の物体のうち、矩形面積が最大の物体を選定する（ステップＳ４０４）。物体選定部３１は、複数のフレームのそれぞれについて、矩形面積が最大の物体の矩形座標を矩形算出部３２に出力する。

図９に示した例では、物体選定部３１により、矩形座標ｋ１，ｋ２，ｋ３をそれぞれ有する３つの物体のうち、矩形面積が最大の矩形座標ｋ１を有する物体が選定される。

図４及び図５に戻って、矩形算出部３２は、物体選定部３１から、複数のフレームのそれぞれについて、矩形面積が最大の物体の矩形座標を入力する。そして、矩形算出部３２は、複数のフレームのそれぞれについて、矩形面積が最大の物体について、当該物体の矩形座標に基づいて、物体の移動量等の矩形データｖ（ｎ）を算出する（ステップＳ４０５）。

ここで、フレームｎについての矩形データｖ（ｎ）は、矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）からなる。矩形データｖ（ｎ）は、矩形座標から算出され、矩形座標は、物体を最大限に含む矩形を特定するための座標である。このため、物体の移動量、物体の面積及び物体の拡大率を特定するために、それぞれ矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）を代用することができる。

例えば矩形算出部３２は、フレームｎ前後の所定数のフレームにおける矩形面積が最大の物体の矩形座標（所定数と同じ数の矩形座標）を用いて、フレームｎにおける矩形中心の移動量ｖ₁（ｎ）及び矩形拡大率ｖ₃（ｎ）を算出する。また、矩形算出部３２は、フレームｎにおける矩形面積が最大の物体の矩形座標を用いて、矩形面積ｖ₂（ｎ）を算出する。

ここで、矩形算出部３２は、物体検出処理部２２により物体が検出されなかった場合、矩形データｖ（ｎ）＝０、すなわちｖ₁（ｎ）＝ｖ₂（ｎ）＝ｖ₃（ｎ）＝０とする。

また、矩形算出部３２は、フレームｎ－１における矩形面積が最大の物体（物体αとする。）と、フレームｎにおける矩形面積が最大の物体（物体βとする）との間の重なり率を、それぞれの矩形座標に基づいて算出する。

物体αを含むフレームｎ－１と物体βを含むフレームｎとを重ねた場合に、物体α，βが存在する領域の面積をＳ１とし、物体α，βが重なっている領域の面積をＳ２とすると、重なり率は、以下の式で表される。
［数１］
重なり率＝Ｓ２／Ｓ１・・・（１）

そして、矩形算出部３２は、重なり率が所定値（例えば０．７５）以下の場合、物体αと物体βとが異なると判断し、フレームｎにおける物体βの矩形中心の移動量ｖ₁（ｎ）＝０に設定すると共に、矩形拡大率ｖ₃（ｎ）＝０に設定する。つまり、矩形面積が最大の物体が変わった場合（同じ識別クラスの異なる物体に変わった場合、または異なる識別クラスの物体に変わった場合）、矩形中心の移動量ｖ₁（ｎ）及び矩形拡大率ｖ₃（ｎ）がリセットされる。一方、矩形算出部３２は、重なり率が所定値（例えば０．７５）よりも大きい場合、物体αと物体βとが同じであると判断する。

矩形算出部３２は、複数のフレームのそれぞれについて、矩形データｖ（ｎ）である矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）をメモリ３３に格納する（ステップＳ４０６）。

これにより、メモリ３３には、映像Ｅからサンプリングされた時系列の複数のフレーム（全てのフレーム）の矩形データｖ（ｎ）が格納されることとなる。つまり、メモリ３３には、フレーム０の矩形データｖ（０）（ｖ₁（０），ｖ₂（０），ｖ₃（０））、・・・、フレームｎの矩形データｖ（ｎ）（ｖ₁（ｎ），ｖ₂（ｎ），ｖ₃（ｎ））、・・・、フレームＮの矩形データｖ（Ｎ）（ｖ₁（Ｎ），ｖ₂（Ｎ），ｖ₃（Ｎ））が格納される。

最大値抽出部３４は、サンプリングされた全てのフレームの矩形データｖ（ｎ）がメモリ３３に格納されると、メモリ３３から、サンプリングされた全てのフレームの矩形データｖ（ｎ）を読み出す。そして、最大値抽出部３４は、これらの矩形データｖ（ｎ）に含まれる矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）のそれぞれについて最大値を抽出し、最大矩形データｖ_maxを設定する（ステップＳ４０７）。

具体的には、最大値抽出部３４は、全てのフレームにおける矩形中心の移動量ｖ₁（０），・・・，ｖ₁（ｎ），・・・，ｖ₁（Ｎ）のうち最大の矩形中心の移動量を抽出し、これをｖ_1maxとする。また、最大値抽出部３４は、全てのフレームにおける矩形面積ｖ₂（０），・・・，ｖ₂（ｎ），・・・，ｖ₂（Ｎ）のうち最大の矩形面積を抽出し、これをｖ_2maxとする。また、最大値抽出部３４は、全てのフレームにおける矩形拡大率ｖ₃（０），・・・，ｖ₃（ｎ），・・・，ｖ₃（Ｎ）のうち最大の矩形拡大率を抽出し、これをｖ_3maxとする。そして、最大値抽出部３４は、矩形中心の最大移動量ｖ_1max、最大矩形面積ｖ_2max及び最大矩形拡大率ｖ_3maxからなる最大矩形データｖ_maxを設定する。

最大値抽出部３４は、最大矩形データｖ_maxである矩形中心の最大移動量ｖ_1max、最大矩形面積ｖ_2max及び最大矩形拡大率ｖ_3maxを音量増幅量算出部３５に出力する。

音量増幅量算出部３５は、最大値抽出部３４から最大矩形データｖ_maxを入力する。また、音量増幅量算出部３５は、メモリ３３から、サンプリングされた全てのフレームにつき最初から順番に矩形データｖ（ｎ）を読み出し、矩形データｖ（ｎ）を最大矩形データｖ_maxで正規化し、正規化後の矩形データｖ（ｎ）に基づいて音量増幅量ａ（ｎ）を算出する（ステップＳ４０８）。そして、音量増幅量算出部３５は、音量増幅量ａ（ｎ）を音量制御部１２に出力する（ステップＳ４０９）。

具体的には、音量増幅量算出部３５は、メモリ３３から読み出した矩形中心の移動量ｖ₁（ｎ）を、矩形中心の最大移動量ｖ_1maxにて正規化し、正規化後の矩形中心の移動量ｖ’₁（ｎ）を求める。また、音量増幅量算出部３５は、メモリ３３から読み出した矩形面積ｖ₂（ｎ）を、最大矩形面積ｖ_2maxにて正規化し、正規化後の矩形面積ｖ’₂（ｎ）を求める。また、音量増幅量算出部３５は、メモリ３３から読み出した矩形拡大率ｖ₃（ｎ）を、最大矩形拡大率ｖ_3maxにて正規化し、正規化後の矩形拡大率ｖ’₃（ｎ）を求める。

音量増幅量算出部３５は、以下の式により、フレームｎの音量増幅量ａ（ｎ）を算出する。
［数２］
ａ（ｎ）＝（ｗ₁ｖ’₁（ｎ）＋ｗ₂ｖ’₂（ｎ）＋ｗ₃ｖ’₃（ｎ））／（ｗ₁＋ｗ₂＋ｗ₃）
・・・（２）
ｗ₁，ｗ₂，ｗ₃は、それぞれ予め設定された矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）の重み係数である。

これにより、映像解析部１１にて、映像Ｅから所定間隔にてサンプリングされた時系列の複数のフレームのそれぞれについて、音量増幅量ａ（ｎ）が得られる。

図１０は、音量増幅量ａ（ｎ）の算出結果を示す図であり、映像解析部１１により算出された音量増幅量ａ（ｎ）を示す。縦軸は音量増幅量ａ（ｎ）であり、横軸は時間（フレーム番号：ｎ）を示す。

映像解析部１１により、図１０に示す音量増幅量ａ（ｎ）が算出され、音量増幅量ａ（ｎ）は、後段の音量制御部１２に出力される。

（音量制御部１２）
次に、図１に示した音量制御部１２について詳細に説明する。図６は、音量制御部１２の構成例を示すブロック図であり、図７は、図６に示す音量制御部１２の処理例を示すフローチャートである。

この音量制御部１２は、メモリ４１、低周波音声抽出部４２、音量増幅制御部４３及び合成部４４を備えている。

音量制御部１２は、映像解析部１１からサンプリングされたフレーム毎の音量増幅量ａ（ｎ）を入力し、音量増幅量ａ（ｎ）をメモリ４１に格納する（ステップＳ７０１）。これにより、映像Ｅからサンプリングされた時系列の複数のフレーム（全てのフレーム）の音量増幅量ａ（ｎ）が、メモリ４１に格納される。

音量制御部１２は、視聴者による操作に従い、映像Ｅ（図１に示した映像解析部１１が入力した映像Ｅと同じ映像）の視聴開始の操作があったか否かを判定する（ステップＳ７０２）。音量制御部１２は、ステップＳ７０２において、視聴開始の操作がないと判定した場合（ステップＳ７０２：Ｎ）、当該操作があるまで待機する。

音量制御部１２は、ステップＳ７０２において、視聴開始の操作があったと判定した場合（ステップＳ７０２：Ｙ）、低周波音声抽出部４２は、映像Ｅを入力し、映像Ｅから、低周波音声信号Ｓ、映像信号、及び低周波音声信号Ｓ以外の音声信号を抽出する（ステップＳ７０３）。

この場合、低周波音声抽出部４２は、低周波音声信号Ｓとして、予め低周波のみを収録した音源の音声信号を抽出するようにしてもよい。

例えば、８Ｋの映像信号及び２２．２ｃｈの音声信号からなる映像Ｅでは、０．２ｃｈに、ＬＦＥ（低音増強（Low Frequency Effect）用チャンネル）と呼ばれる１２０Ｈｚ以下の低周波音声が用いられる。この場合、低周波音声抽出部４２は、低周波音声信号Ｓとして、このＬＦＥの音声信号を抽出することにより、後段の触覚デバイス７においてＬＦＥの音声信号を利用することで、視聴者は、振動に適した触覚刺激を得ることができる。

また、ＬＦＥのような低周波音声を用意できない場合、ミックスされた音声信号を利用するようにしてもよい。つまり、低周波音声抽出部４２は、ミックスされた音声信号の低周波成分を強調し、高周波成分を抑えるようにイコライジングすることで、低周波音声信号Ｓを疑似的に生成することができる。

低周波音声抽出部４２は、低周波音声信号Ｓを音量増幅制御部４３に出力し、映像信号、及び低周波音声信号Ｓ以外の音声信号（その他の音声信号）を合成部４４に出力する。

音量増幅制御部４３は、低周波音声抽出部４２から低周波音声信号Ｓを入力すると共に、メモリ４１から、サンプリングされた全てのフレームにつき最初から順番に、音量増幅量ａ（ｎ）を読み出す（ステップＳ７０４）。そして、音量増幅制御部４３は、メモリ４１から読み出された音量増幅量ａ（ｎ）に基づいて、低周波音声信号Ｓの音量Ａを増幅し、新たな低周波音声信号Ｓ’を生成する（ステップＳ７０５）。音量増幅制御部４３は、新たな低周波音声信号Ｓ’を合成部４４に出力する。

例えば音量増幅制御部４３は、以下の式により、音量増幅量ａ（ｎ）に比例するように、音量増幅量ａ（ｎ）に対応するフレームの低周波音声信号Ｓの音量Ａを増幅し、音量Ａ_newを有する新たな低周波音声信号Ｓ’を生成する。
［数３］
Ａ_new＝ａ（ｎ）Ａ＋ｃ・・・（３）

ここで、ｃは、音量Ａ_newを底上げするための定数（最小値）である。また、音量増幅量ａ（ｎ）に対応するフレームの低周波音声信号Ｓとは、音量増幅量ａ（ｎ）に対応するフレームの時点から、次のフレームの直前の時点までの間における音声信号である。

これにより、音量増幅量ａ（ｎ）が小さいほど、すなわち矩形面積が最大の物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が小さいほど、低周波音声信号Ｓの音量Ａを小さくすることができる。一方、音量増幅量ａ（ｎ）が大きいほど、すなわち矩形面積が最大の物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が大きいほど、低周波音声信号Ｓの音量Ａを大きくすることができる。

合成部４４は、音量増幅制御部４３から低周波音声信号Ｓ’を入力すると共に、低周波音声抽出部４２から、映像信号、及び低周波音声信号Ｓ以外の音声信号を入力する。そして、合成部４４は、低周波音声信号Ｓ’、映像信号、及び低周波音声信号Ｓ以外の音声信号を合成し、音量制御済映像Ｅ’を求める（ステップＳ７０６）。合成部４４は、音量制御済映像Ｅ’を触覚提示部１３に出力する（ステップＳ７０７）。

これにより、音量制御部１２にて、映像Ｅのフレームにおける音量増幅量ａ（ｎ）が小さい場合、低周波音声信号Ｓの音量Ａを小さくすることで、新たな音量Ａ_newの低周波音声信号Ｓ’を含む音量制御済映像Ｅ’が生成される。また、映像Ｅのフレームにおける音量増幅量ａ（ｎ）が大きい場合、低周波音声信号Ｓの音量Ａを大きくすることで、新たな音量Ａ_newの低周波音声信号Ｓ’を含む音量制御済映像Ｅ’が生成される。

尚、図７に示した音量制御部１２は、さらに、メモリ４１の前段に平滑化部を備えるようにしてもよい。平滑化部は、映像解析部１１からサンプリングされたフレーム毎の音量増幅量ａ（ｎ）を入力する。

平滑化部は、音量増幅量ａ（ｎ）が安定していない場合（例えば音量増幅量ａ（ｎ）の変化率が所定値以上である場合）、前後（近傍）の所定数のフレームを用いて、当該フレームの音量増幅量ａ（ｎ）のスムージング（平滑化）を行う。そして、平滑化部は、平滑化後の音量増幅量ａ（ｎ）をメモリ４１に格納する。

（触覚提示部１３）
次に、図１に示した触覚提示部１３について詳細に説明する。図８は、５．１ｃｈ形式の映像Ｅを再生する場合の触覚提示部１３の構成例を示す図である。この例は、５．１ｃｈ形式（Ｌ，Ｒ，Ｃ，ＳＬ，ＳＲ，ＬＦＥ）の音声信号のうち、Ｌ，Ｒ，ＬＦＥの３チャンネルの音声信号を使用している場合を示している。

この触覚提示部１３は、抽出部５１及び増幅部５２を備えている。尚、図８では、映像信号及びＬ，Ｒの音声信号を増幅する構成については省略してある。

抽出部５１は、音量制御部１２から音量制御済映像Ｅ’を入力し、音量制御済映像Ｅ’から、低周波音声信号Ｓ’としてＬＦＥの音声信号を抽出すると共に、映像信号及びＬ（左），Ｒ（右）の音声信号を抽出する。抽出部５１は、ＬＦＥの音声信号を増幅部５２に出力し、増幅部５２は、ＬＦＥの音声信号を増幅して触覚デバイス７及びスピーカ９へ出力する。また、抽出部５１は、映像信号をディスプレイ８へ出力し、Ｌ，Ｒの音声信号をスピーカ９へ出力する。

触覚デバイス７は、増幅部５２からＬＦＥの音声信号を入力し、ＬＦＥの音声信号の音量が小さいほど、小さい振動を視聴者へ提示し、ＬＦＥの音声信号の音量が大きいほど、大きい振動を視聴者へ提示する。

これにより、視聴者は、触覚提示部１３からＬＦＥの音声信号を入力した触覚デバイス７、映像信号を入力したディスプレイ８、及びＬ，Ｒ，ＬＦＥの音声信号を入力したスピーカ９を介して、映像Ｅを視聴すると共に、映像Ｅに連動した触覚刺激を受けることができる。

特に、映像Ｅのフレームにおいて、矩形面積が最大の物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が小さい場合、低周波音声信号Ｓの音量Ａが小さくなることで、視聴者は、通常よりも弱い触覚刺激を受けることができる。一方、矩形面積が最大の物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が大きい場合、低周波音声信号Ｓの音量Ａが大きくなることで、視聴者は、通常よりも強い触覚刺激を受けることができる。

ここで、ＬＦＥの音声信号である低周波音声信号Ｓ’が触覚デバイス７へ出力され、低周波音声信号Ｓ’が触覚刺激に変換されるのは、一般に、人間が２００Ｈｚ以下程度の低い周波数でのみ触覚刺激を受けることができ、音声信号の周波数が高い場合は、適した触覚刺激を受けることができないからである。

尚、抽出部５１は、音量制御済映像Ｅ’から、低周波音声信号Ｓ’としてＬＦＥの音声信号を抽出すると共に、映像信号及びＬ（左），Ｒ（右）の音声信号を抽出し、ＬＦＥの音声信号を、増幅部５２を経由して触覚デバイス７へ出力し、映像信号をディスプレイ８へ出力し、Ｌ（左），Ｒ（右）の音声信号をスピーカ９へ出力するようにしてもよい。

以上のように、本発明の実施形態の触覚提示装置１によれば、映像解析部１１は、映像Ｅをサンプリングして時系列の複数のフレームを取得し、複数のフレームのそれぞれについて、１または複数の物体の矩形座標を検出し、面積が最大の物体を選定し、当該物体の矩形データｖ（矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ））を算出する。そして、映像解析部１１は、サンプリングされた全てのフレームの矩形データｖから最大矩形データｖ_maxを抽出し、矩形データｖ及び最大矩形データｖ_maxに基づいて音量増幅量ａ（ｎ）を算出する。

音量制御部１２は、視聴開始の操作があると、映像Ｅから低周波音声信号Ｓ等を抽出し、低周波音声信号Ｓの音量Ａに音量増幅量ａ（ｎ）を乗算することで、低周波音声信号Ｓの音量Ａを増幅した新たな低周波音声信号Ｓ’を生成する。そして、音量制御部１２は、低周波音声信号Ｓ’を含む音量制御済映像Ｅ’を合成する。

触覚提示部１３は、音量制御済映像Ｅ’から低周波音声信号Ｓ’を抽出し、低周波音声信号Ｓ’を触覚デバイス７へ出力する。

これにより、フレームに含まれる物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が大きいほど、音量増幅量ａ（ｎ）が大きくなり、音量Ａを大きくした新たな音量Ａ_newの低周波音声信号Ｓ’が生成され、触覚デバイス７による振動を大きくすることができる。一方、フレームに含まれる物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）が小さいほど、音量増幅量ａ（ｎ）が小さくなり、音量Ａを小さくした新たな音量Ａ_newの低周波音声信号Ｓ’が生成され、触覚デバイス７による振動を小さくすることができる。

つまり、視聴者は、触覚デバイス７を介して、映像Ｅに含まれる物体の動き等に応じた振動刺激を受けることができる。視聴者は、例えば物体の動きが大きいほど、大きな振動刺激を受けることができ、物体の動きが小さいほど、小さな振動刺激を受けることができる。

したがって、映像Ｅを視聴する際に、触覚提示装置１により、没入感向上に寄与する触覚刺激を提示するための情報を生成することができ、視聴者は、映像Ｅ内の物体の動き等に合わせて振動刺激を受けることができ、没入感を向上させることができる。

以上、実施形態を挙げて本発明を説明したが、本発明は前記実施形態に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。

例えば前記実施形態では、映像解析部１１に備えた音量増幅量算出処理部２３の音量増幅量算出部３５は、物体の矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）をそれぞれの最大値で正規化し、正規化後の矩形中心の移動量ｖ’₁（ｎ）、矩形面積ｖ’₂（ｎ）及び矩形拡大率ｖ’₃（ｎ）を重み付けすることで、音量増幅量ａ（ｎ）を算出するようにした。これに対し、音量増幅量算出部３５は、矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）のうちの少なくとも１つのデータを用いて、音量増幅量ａ（ｎ）を算出するようにしてもよい。

例えば音量増幅量算出部３５は、矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）のうちの２つのデータをそれぞれの最大値で正規化し、正規化後の２つのデータを重み付けすることで、音量増幅量ａ（ｎ）を算出する。

また、音量増幅量算出部３５は、矩形中心の移動量ｖ₁（ｎ）、矩形面積ｖ₂（ｎ）及び矩形拡大率ｖ₃（ｎ）のうちの１つのデータをその最大値で正規化し、正規化後のデータを音量増幅量ａ（ｎ）とする。この場合、音量増幅量算出部３５は、正規化後のデータの値に比例するように、音量増幅量ａ（ｎ）を算出するようにしてもよい。

また、例えば図２及び図７に示した例では、触覚提示装置１の映像解析部１１に備えた音量増幅量算出処理部２３の矩形算出部３２は、サンプリングされた全てのフレームの矩形データｖ（ｎ）をメモリ３３に格納するようにした。そして、最大値抽出部３４は、メモリ３３からサンプリングされた全てのフレームの矩形データｖ（ｎ）を読み出して最大矩形データｖ_maxを抽出し、音量増幅量算出部３５は、矩形データｖ（ｎ）及び最大矩形データｖ_maxに基づいて音量増幅量ａ（ｎ）を算出する。そして、視聴者による視聴開始の操作があると、音量制御部１２の音量増幅制御部４３は、音量増幅量ａ（ｎ）に基づいて低周波音声信号Ｓの音量Ａを増幅するようにした。

これに対し、音量増幅量算出部３５は、最大値抽出部３４により抽出された最大矩形データｖ_maxを用いるのではなく、予め設定された最大矩形データｖ_maxを用いて、音量増幅量ａ（ｎ）を算出するようにしてもよい。この場合、映像解析部１１の音量増幅量算出処理部２３は、図５に示した構成例において、メモリ３３及び最大値抽出部３４を備える必要がない。

つまり、音量制御部１２が視聴者による視聴開始の操作を待つことなく、音量増幅制御部４３は、時間インタリーブ処理部３５により算出された音量増幅量ａ（ｎ）に基づいて、低周波音声信号Ｓの音量Ａを増幅する。

これにより、映像解析部１１が映像Ｅを入力して音量増幅量ａ（ｎ）を算出し、音量制御部１２が低周波音声信号Ｓの音量Ａを増幅して音量制御済映像Ｅ’を生成し、触覚提示部１３が低周波音声信号Ｓ’を触覚デバイス７へ出力するまでの一連の処理をリアルタイムで実現することができる。

また、図２及び図７に示した例では、触覚提示装置１の音量制御部１２は、視聴者による視聴開始の操作があったと判定した場合に、映像Ｅから低周波音声信号Ｓ等を抽出し、低周波音声信号Ｓの音量Ａを増幅して音量制御済映像Ｅ’を生成し、触覚提示部１３は、音量制御済映像Ｅ’から低周波音声信号Ｓ’を抽出して触覚デバイス７へ出力するようにした。

これに対し、音量制御部１２は、生成した音量制御済映像Ｅ’を図６には図示しないメモリに格納しておき、触覚提示部１３は、視聴者による視聴開始の操作がある度に、当該メモリに格納された音量制御済映像Ｅ’を繰り返し利用するようにしてもよい。

尚、触覚提示装置１のハードウェア構成としては、通常のコンピュータを使用することができる。触覚提示装置１は、ＣＰＵ、ＲＡＭ等の揮発性の記憶媒体、ＲＯＭ等の不揮発性の記憶媒体、及びインターフェース等を備えたコンピュータによって構成される。

触覚提示装置１に備えた映像解析部１１、音量制御部１２及び触覚提示部１３の各機能は、これらの機能を記述したプログラムをＣＰＵに実行させることによりそれぞれ実現される。

これらのプログラムは、前記記憶媒体に格納されており、ＣＰＵに読み出されて実行される。また、これらのプログラムは、磁気ディスク（フロッピー（登録商標）ディスク、ハードディスク等）、光ディスク（ＣＤ－ＲＯＭ、ＤＶＤ等）、半導体メモリ等の記憶媒体に格納して頒布することもでき、ネットワークを介して送受信することもできる。

１触覚提示装置
７触覚デバイス
８ディスプレイ
９スピーカ
１１映像解析部
１２音量制御部
１３触覚提示部
２１フレームサンプリング処理部
２２物体検出処理部
２３音量増幅量算出処理部
３１物体選定部
３２矩形算出部
３３，４１メモリ
３４最大値抽出部
３５音量増幅量算出部
４２低周波音声抽出部
４３音量増幅制御部
４４合成部
５１抽出部
５２増幅部
Ｅ映像
Ｅ’ 音量制御済映像
ｋ１，ｋ２，ｋ３矩形座標
ａ音量増幅量
ｖ矩形データ
ｖ_max 最大矩形データ
ｖ₁（ｎ）矩形中心の移動量
ｖ₂（ｎ）矩形面積
ｖ₃（ｎ）矩形拡大率
Ｓ，Ｓ’ 低周波音声信号
Ａ，Ａ_new 音量
α，β 物体

Claims

映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置において、
前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のＮＮ（ニューラルネットワーク）を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも１つのデータを算出し、前記少なくとも１つのデータに基づいて音量増幅量を算出する映像解析部と、
前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部と、
前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部と、
を備えたことを特徴とする触覚提示装置。
請求項１に記載の触覚提示装置において、
前記映像解析部は、
前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて前記物体を検出し、前記物体の移動量、面積及び拡大率を算出し、前記物体の移動量、面積及び拡大率に基づいて前記音量増幅量を算出する、ことを特徴とする触覚提示装置。
請求項２に記載の触覚提示装置において、
前記映像解析部は、
前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて１または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、
前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記１または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第１の矩形データ、当該物体の面積に関する第２の矩形データ及び当該物体の拡大率に関する第３の矩形データを算出する矩形算出部と、
前記複数のフレームにおける前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データから、それぞれ第１の矩形データの最大値、第２の矩形の最大値及び第３の矩形データの最大値を抽出する最大値抽出部と、
前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データを、前記最大値抽出部により抽出された前記第１の矩形データの最大値、前記第２の矩形データの最大値及び前記第３の矩形データの最大値でそれぞれ正規化し、正規化後の第１の矩形データ、第２の矩形データ及び第３の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、
を備えたことを特徴とする触覚提示装置。
請求項２に記載の触覚提示装置において、
前記映像解析部は、
前記映像を、所定間隔にて時系列の複数のフレームにサンプリングするフレームサンプリング処理部と、
前記フレームサンプリング処理部によりサンプリングされた前記複数のフレームのそれぞれについて、前記所定のＮＮを用いて１または複数の物体を検出し、物体毎に当該物体を含む矩形座標を推定する物体検出処理部と、
前記複数のフレームのそれぞれについて、前記物体検出処理部により推定された前記物体毎の矩形座標に基づいて、前記１または複数の物体のうち面積が最大の物体を選定し、前記最大の物体につき、当該フレームを含む所定数のフレームにおける当該物体の矩形座標に基づいて、当該物体の移動量に関する第１の矩形データ、当該物体の面積に関する第２の矩形データ及び当該物体の拡大率に関する第３の矩形データを算出する矩形算出部と、
前記矩形算出部により算出された前記第１の矩形データ、前記第２の矩形データ及び前記第３の矩形データを、前記第１の矩形データの予め設定された最大値、前記第２の矩形データの予め設定された最大値及び前記第３の矩形データの予め設定された最大値でそれぞれ正規化し、正規化後の第１の矩形データ、第２の矩形データ及び第３の矩形データを重み付けすることで、前記音量増幅量を算出する音量増幅量算出部と、
を備えたことを特徴とする触覚提示装置。
請求項１から４までのいずれか一項に記載の触覚提示装置において、
前記音量制御部は、
前記映像から、前記低周波音声信号、映像信号、及び前記低周波音声信号以外の音声信号を抽出する低周波音声抽出部と、
前記映像解析部により算出された前記フレームについての前記音量増幅量を、前記フレームに対応する前記低周波音声抽出部により抽出された前記低周波音声信号に乗算し、新たな低周波音声信号を生成する音量増幅制御部と、
前記音量増幅制御部により生成された前記新たな低周波音声信号、前記低周波音声抽出部により抽出された前記映像信号、及び前記低周波音声信号以外の音声信号を合成し、音量制御済映像を求める合成部と、
前記触覚提示部は、
前記合成部により求めた前記音量制御済映像から、前記新たな低周波音声信号を抽出し、前記新たな低周波音声信号を前記触覚デバイスへ出力する、ことを特徴とする触覚提示装置。
映像から低周波音声信号を抽出し、前記低周波音声信号に基づいて、前記映像の視聴者に対し触覚デバイスを介して触覚刺激を提示するための情報を生成する触覚提示装置を構成するコンピュータを、
前記映像に含まれる時系列の複数のフレームのそれぞれについて、所定のＮＮ（ニューラルネットワーク）を用いて物体を検出し、前記物体の移動量、面積及び拡大率のうち少なくとも１つのデータを算出し、前記少なくとも１つのデータに基づいて音量増幅量を算出する映像解析部、
前記映像から前記低周波音声信号を抽出し、前記映像解析部により算出された前記フレームについての前記音量増幅量に基づいて、前記フレームに対応する前記低周波音声信号の音量を増幅する音量制御部、及び、
前記音量制御部により前記音量が増幅された前記低周波音声信号を、前記触覚デバイスへ出力する触覚提示部として機能させるためのプログラム。