一の実施形態は、触覚効果の開発者による先行する触覚設計に基づいて触覚化モデルを学習し、学習された触覚化モデルを用いてマルチメディアクリップ等の新規のコンテンツ用の新規の触覚設計を推奨するシステムである。
図1は、本発明の一の実施形態に係るシステム10のブロック図である。一の実施形態において、システム10は、触覚オーサリング装置(haptic authoring device)の一部であり、システム10は、触覚オーサリング装置のための触覚設計機能を提供する。単一のシステムとして図示されてはいるが、システム10の機能は、分散システムとして実装可能である。システム10は、情報通信用のバス12又はその他の通信機構と、バス12に連結される情報処理用のプロセッサ22とを含む。プロセッサ22は、任意の種類の汎用又は特定用途プロセッサであり得る。システム10は、情報及びプロセッサ22によって実行される命令を格納するためのメモリ14を更に含む。メモリ14は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、磁気又は光学ディスク等の静的記憶装置、又はその他任意の種類のコンピュータ読み取り可能媒体の任意の組み合わせで構成されてよい。
コンピュータ読み取り可能媒体は、プロセッサ22によってアクセス可能な任意の利用可能な媒体であり得て、揮発性媒体と不揮発性媒体の両方、リムーバブル媒体と非リムーバブル媒体、通信媒体、及び記憶媒体を含み得る。通信媒体はコンピュータ読み取り可能命令、データ構造、プログラムモジュール、又は、搬送波やその他の搬送機構等の変調されたデータ信号内のその他のデータを含み得て、更に、公知のその他任意の形式の情報伝達媒体を含み得る。記憶媒体には、が含まれ得る。RAM、フラッシュメモリ、ROM、消去可能プログラマブルリードオンリーメモリ(EPROM)、電気的消去可能リードオンリーメモリ(EEPROM)、レジスタ、ハードディスク、リムーバブルディスク、コンパクトディスクリードオンリーメモリ(CD−ROM)、又は公知のその他任意の形式の記憶媒体を含み得る。
一の実施形態において、メモリ14は、プロセッサ22によって実行された際に機能を提供するソフトウェアモジュールを格納する。モジュールは、システム10にオペレーティングシステム機能を提供するオペレーティングシステム15と、一の実施形態における触覚オーサリング装置の残りの部分を含む。モジュールは、以下に詳述するとおり、入力を受けて触覚設計を推奨する触覚設計モジュール16を更に含む。特定の実施形態において、触覚設計モジュール16は、各々が、触覚設計を推奨又は生成するための個別の特定の機能を提供する複数のモジュールを含んでよい。システム10は典型的に、追加の機能を含めるために、Immersion Corporation製のHaptic Studio(商標)ソフトウェアのような1以上の追加のアプリケーションモジュール18を含むだろう。
リモートのソースからデータを送受信する実施形態において、システム10は、赤外線、無線、Wi−Fi、又は携帯ネットワーク通信のようなモバイルワイヤレスネットワーク通信を提供するために、ネットワークインターフェイスカードのような通信装置20を更に含む。他の実施形態において、通信装置20は、イーサネット(登録商標)接続又はモデム等の有線ネットワーク接続を提供する。
プロセッサ22は、グラフィック描写又はユーザーインターフェイスをユーザーに向けて表示するために、バス12を経由して液晶ディスプレイ(LCD)等のディスプレイ24に更に連結される。ディスプレイ24は、プロセッサ22との間で信号を送受信するよう構成される、タッチスクリーン等のタッチ式の入力装置であり得て、また、マルチタッチタッチスクリーンであり得る。
一の実施形態において、システム10はアクチュエータ26を更に含む。アクチュエータ26は、触覚効果が当該システム上で生成される実施形態において用いられる。そうでない場合、アクチュエータ26は別の装置の一部であってよい。プロセッサ22は、生成された触覚効果に関連付けられた触覚信号をアクチュエータ26に送信し得て、アクチュエータ26は、振動触知(vibrotactile)触覚効果、静電摩擦触覚効果、又は変形触覚効果等の触覚効果を出力する。アクチュエータ26はアクチュエータ駆動回路を含む。アクチュエータ26はまた、例えば電気モータ、電磁アクチュエータ、ボイスコイル、形状記憶合金、電気活性ポリマー、ソレノイド、偏心回転質量モータ(ERM)、リニア共振アクチュエータ(LRA)、圧電アクチュエータ、広帯域アクチュエータ、電気活性ポリマー(EAP)アクチュエータ、静電摩擦ディスプレイ、又は超音波振動発生器であり得る。代替的な実施形態において、システム10は、アクチュエータ26に加えて、1以上の追加のアクチュエータを含んでよい(図1には図示せず)。アクチュエータ26は、駆動信号を受けて、振動触知触覚効果、静電摩擦触覚効果、又は変形触覚効果等の触覚効果を出力するように構成される触覚出力装置の一例である。代替的な実施形態において、アクチュエータ26はいくつかのその他の主対の触覚出力装置によって置換可能である。更に、別の代替的な実施形態において、システム10は、アクチュエータ26を含まなくてもよく、システム10とは別の装置がアクチュエータ、又は、触覚効果を生成するその他の触覚出力装置を含み、システム10は生成された触覚信号を、通信装置20を経由してその装置へ送信する。
一の実施形態において、システム10は、スピーカー28を更に含む。スピーカー28は、音声が当該システム上で生成される実施形態において用いられる。そうでない場合、スピーカー28は別の装置の一部であってよい。プロセッサ22は、音声信号をスピーカー28に送信し得て、スピーカー28は音声効果を出力する。スピーカー28は、例えば、ダイナミックスピーカー、動電型スピーカー、圧電スピーカー、磁歪スピーカー、静電スピーカー、リボン及び平面磁気スピーカー、屈曲波スピーカー、フラットパネルスピーカー、ハイルエアモーショントランスデューサー、プラズマアークスピーカー、及びデジタルスピーカーであり得る。代替的な実施形態において、システム10は、スピーカー28に加えて、1以上の追加のスピーカーを含んでよい(図1には図示せず)。更に、別の代替的な実施形態において、システム10は、スピーカー28を含まなくてもよく、システム10とは別の装置が音声効果を出力するスピーカーを含み、システム10は、音声信号を、通信装置20を経由してその装置へ送信する。
一の実施形態において、システム10は、データベース30を更に含む。データベース30は、触覚設計モジュール16の格納を提供し、触覚設計データ等を格納するよう構成されてよい。
図2は、本発明の一の実施形態に係る触覚設計システム200のブロック図である。触覚設計システム200は、触覚オーサリングシステム210、データベース220、及び触覚設計推奨部230を含む。触覚設計推奨部230は、図1の触覚設計モジュール16を用いて実装されてよい。
操作時に、設計者はまず触覚オーサリングシステム210を操作して、例えば触覚オーサリングシステム210上で実行される触覚設計ソフトウェアを用いて、マルチメディアクリップ内のイベント(例えば、動画内の1シーン、又は音声の一部)用の触覚効果を手動でオーサリング(manually author)してよい。対応するマルチメディアイベントの、手動でオーサリングされた触覚効果及び特性を表すPCM信号及び/又はタグは、データベース220に格納、及び/又は触覚設計推奨部230に直接転送されてよい。以下に詳述するとおり、一部の実施形態において、データベース220は、提案/推奨された効果を生成するために用いることができる触覚化モデルを構築するために用いられてよい。触覚設計推奨部230は、効果の特徴(例えば、期間、振幅、波形(shape)、及び周波数等)を検出でき、図3に後述される機能に従って、触覚効果を、マルチメディアクリップ内で同じタイミングで発生する対応するイベント(すなわち、触覚化の対象となるイベント)の特性に関連付けることができる。一般的に、特定の触覚効果を定義する高レベルのパラメータとしては、強度、周波数、及び期間が含まれる。特定の触覚効果を決定するために、ストリーミングモータコマンド(streaming motor command)のような低レベルのパラメータも使用可能である。触覚効果が生成される際にこれらのパラメータのいくつかの変化が含まれる場合、もしくはユーザーのインタラクションに基づいたこれらのパラメータの1つの変化が含まれる場合、触覚効果は「動的」であると見なされ得る。
一部の実施形態において、マルチメディアイベントの特性には、音声特性又は/及び映像特性が含まれてよい。これらの特性は、イベントの動態(dynamics of the event)(例えば、イベントと、クリップ内におけるその前後の部分との間の移行)をキャプチャすることも可能である。音声特性は、スペクトル的(例えば、周波数成分、メル周波数ケプストラム係数(MELFCC)、周波数帯ごとの力等)及び時間的(例えば、波形、振幅、タイミング)であってよい。映像特性は、例えば、色のヒストグラム、オプティカルフロー(例えばシーン内のオブジェクトの動きの推定)、特定の色パターンの存在、等を含んでよい。システム200はシーンの動態(dynamics of the scene)(例えば、イベントそのものだけでなく)をキャプチャすることも可能である。例えば、システム200は、イベントに対する音の振幅が増大又は減衰している場合や、イベント又はシーン中に色のヒストグラムがどのように変化したか等をキャプチャ可能である。
一部の実施形態において、触覚設計推奨部230は分類及びクラスタリングの技術(例えば隠れマルコフモデル(HMM)、混合ガウスモデル(GMM)、K平均法、K近傍法(KNN)、ベイジアンネットワーク等)を用いて効果の種類とイベントの種類とを関連付ける。このような実施形態において、新規のマルチメディアクリップをオーサリングする際、触覚設計推奨部230は、すでに学習したものと同様のイベントを検出すると、新規コンテンツの特性を分析し、効果を提案/推奨できる。
一部の実施形態において、触覚設計推奨部230は、触覚オーサリングシステム210上で実行中の触覚設計ソフトウェアにおけるバックグラウンドプロセスのように、リアルタイムで動作可能である。一部の実施形態において、触覚設計推奨部230は、「Immersion」フォーマット又はD−BOX Technologies Inc.によって採用されるフォーマットで保存された触覚効果データを読み出す等して、あらかじめオーサリングされたコンテンツ上でオフラインで動作可能である。一部の実施形態において、触覚効果推奨部230は、新規のマルチメディアクリップに効果を推奨する際、その作者がすでにオーサリングした効果のみを考慮することにより、異なる触覚効果製作者に適応することができる。別法として別の実施形態において、触覚効果推奨部230は、新規のマルチメディアクリップに効果を推奨する際、複数の製作者がすでにオーサリングした効果を考慮するよう構成されてよい。
図3は、本発明の一の実施形態に係るシステムによって実行される触覚設計機能のフロー図である。一部の実施形態において、図3の機能はメモリ、もしくはその他のコンピュータ読み取り可能媒体に格納されたソフトウェアによって実装され、プロセッサによって実行される。本実施形態において、各機能は、触覚設計モジュール(図1の触覚設計モジュール16等)によって行われ得る。別の実施形態において、各機能は、ハードウェア(例えば、特定用途向けIC(ASIC)、プログラム可能ゲートアレイ(PGA)、フィールドプログラム可能ゲートアレイ(FPGA)等を用いる)又はハードウェアとソフトウェアとの任意の組み合わせによって行われ得る。
該実施形態によれば、フローは、マルチメディアクリップ315向けの触覚効果を、例えば触覚設計ソフトウェアを用いてユーザーが手動でオーサリング/設計する310において開始する。この効果は、マルチメディアクリップ内のイベントに対応する。フローは320に続く。
320において、ユーザーはオーサリングされた触覚効果とイベントにタグ付けしてよい。ユーザーは、マルチメディアクリップ全体を、例えばマルチメディアクリップの種類又はジャンルをタグ付けすることにより、タグ付けしてよい。一部の実施形態において、ユーザーは、効果/イベントにタグ付けする必要がなく、手動で入力されたタグを用いずに、後述する340において自動的に検出/抽出された特性が用いられる。フローは330に続く。
330において、モジュール16は、触覚効果、イベント、及びタグ(与えられている場合)を受信する。フローは340に続く。
340において、モジュール16は、マルチメディアクリップ315から低レベルの特性(音声及び/又は映像)を、また、330で受信したイベントと効果の信号から効果の特徴を、自動的に検出/抽出する。例えば、各イベントを記述する特性(及び上述したそのコンテクスト)は、自動的に検出/抽出され、その後、イベントと、対応する効果を記述する特徴とを関連付けるために用いることができる。イベントの特性には、例えば音声特性(スペクトル的及び/又は時間的)及び/又は映像特性(色及び/又は動きの情報)が含まれてよい。コンテクスト(context)特性は、同じ性質のものであってよいが、上述したものよりも詳細でない。例えば、イベントは、イベント中の音声の周波数成分及び/又は色のヒストグラムの変動を用いて記述されてよく、シーン/コンテクストは音声の平均振幅によって記述されてよい。
一部の実施形態において、2つのレベルの記述子の組み合わせ(手動で入力したタグと自動的に抽出/検出された特性)をコンテクスト情報として用いることができる。イベント/効果はユーザーによってタグ付けされてよく、同時に、その関連する特性はキャプチャされてよい。このような実施形態において、効果を提案するための全自動又は半自動的アプローチを用いて、新規のマルチメディアクリップに対して効果が提案されることができる。フローは350に続く。
350において、モジュール16は触覚効果を、その対応するイベント又はイベントの連続体に関連付け、この関連付けを、図1のデータベース30のようなデータベースに格納する。触覚効果は、例えば高レベルなイベント/効果記述子(例えば、320において手動で入力され330で受信されるタグのような意味論記述子)又は低レベルのイベント/効果記述子(例えば、信号特性のような自動的に検出/抽出される特性)を用いて、イベントに関連付けることができる。
330でタグデータが受信される実施形態において、「一連のうち最初の爆発」としてタグ付けされたイベントは、例えば「強い爆発」としてタグ付けされた触覚効果と関連付けることができる。別の例において、「ミュージックビデオ」としてタグ付けされたクリップ内の「車のエンジン」としてタグ付けされたイベントには何の触覚効果も関連付けられなくてよいが、クリップ「アクションビデオ」内の同じイベントは「エンジンをふかす音」としてタグ付けされた触覚効果と関連付けることができる。このような実施形態において、タグは、各イベント/効果の設計に際し、設計者によって手動で関連付けられる。この特定のタグ付け作業のために、設計者は、各イベントのコンテクストのキャプチャを可能にするタグ付け情報(例えば、イベントの名称、シーンの種類、先行及び後続のイベント、クリップの種類、フォアグラウンドとバックグラウンドの他のイベント等)を提供する。一部の実施形態において、各効果に割り当てられたタグ付けデータは基本タグ(例えば、効果の名称、強度のレベル(level of intensity))であってよい。フローは360に続く。
360において、モジュール16は、効果とイベントとの関連付けを用いて、触覚化モデル(例えばベイジアンモデル、マルコフモデル等)を構築(又は学習)する。モデルは、設計者(ユーザー)のスタイルを記述するために構築される。モデルは、新規のマルチメディアクリップ用に、提案/推奨された効果を後に生成するために用いられる。モデルは、必要とされる全ての情報(イベント、コンテクスト、効果)をキャプチャする包括的なものであってよい。例えば、高レベルの記述子を用いたベイジアンネットワークの実装において、離散状態変数は、イベントの種類、次又は後続のイベントの種類、これらのイベントまでの時間、シーンのテーマ等を記述(各1つ)できる。
低レベルの記述子が用いられる実施形態において、イベントの種類もモデルを通じて表現されるであろうことから、モデルはより複雑であってよい。このモデルのベイジアンネットワーク実装において、例えば、変数は連続的で、各々が一のイベントの一の特性を表してよい。ベイジアンネットワーク実装の一例が以下の図4及び5に示される。一部の実施形態において、モデルはデータベースに格納される。別法として、モデルはデータベースに格納されるデータから構築される。フローは370に続く。
370において、モジュール16は、新規のマルチメディアクリップ325からイベントの特性を自動的に抽出する、及び/又はユーザー(例えば触覚設計者)が新規のマルチメディアクリップ325内の1以上のイベントにタグ付けする。
380において、モジュール16は、モデルを用いて、新規のマルチメディアクリップ325又は新規のマルチメディアクリップ325内の1以上のイベントに向けて、提案/推奨された触覚効果を生成する。提案/推奨は、モデルからの尤度の推定に基づいてよく、モデルの構築に高レベル(タグ付けデータ)及び/又は低レベル(自動抽出された特性データ)が用いられたかによって、全自動又は半自動モードで行われてよい。例えば、360においてモデルの構築に低レベルのデータが用いられた場合、触覚効果の提案/推奨は後述のように全自動で行うことができる。別の例で、360においてモデルの構築に高レベルのデータが用いられた場合、触覚効果の提案/推奨は後述のように半自動(新規のマルチメディアクリップ内のイベントに対するタグの入力をユーザー(設計者)に要求する)で行うことができる。
例えば、半自動モードでは、設計者/ユーザーは、触覚化したいイベント、ならびに、例えばコンテクスト情報を提供するための周辺のイベント及びシーンをタグ付けする必要がある。モジュール16は、設計者のスタイル(モデルによって決定される)と、タグ付けされたイベントの異なる状態/種類を基に、機械学習アルゴリズムを用いて最も可能性の高い触覚効果を決定する。半自動モードを行うとき、データベースの構築は、低レベルの特性を用いる又は用いない、320及び330で上述した設計者のタグ付け作業を用いて行われるのが好ましい。このモードにおいて、例えば設計者は、イベントを、爆発に続く発砲としてタグ付けし、このシーンを「アクション」としてタグ付けできる。この情報を利用して、モデルを与えられたモジュール16はこの構成に最適な効果を見つけることができる。モデルは可能性のある全ての構成を含まない場合があるため、一部の提案はモデルを用いた尤度の推定に基づいてよい。追加する効果の種類が決定されると、モジュール16はイベントの時間特性を利用してそれを適切に調整できる(例えば、強度、期間)。
全自動モードにおいては、例えば設計者による介入(例えば手動による入力)が一切必要ない。このモードでは、モジュール16が音声又は映像コンテンツの特性を自動的に分析し、これらの特性を基に効果を関連付ける試みが可能である。このモードでは、全てのイベント、効果、及びコンテクストが、その特性と特徴によって記述され、モジュール16は異なる特性値を参照し、学習されたモデルを用いて最も可能性の高い一連の効果の特徴を見つけることができる。
一部の実施形態において、推奨された触覚効果は、ユーザー/設計者による介入なしで新規のマルチメディアクリップ324向けの触覚効果を作成するのに用いられる。例えば、このような実施形態において、380でモジュール16によって推奨された触覚効果は、人間の介入なしで新規のマルチメディアクリップに自動的に適用される(例えばユーザー/設計者が推奨を受け入れる必要がない)。このような実施形態は、学習された触覚化モデルにおいて表される設計者(人間)がオーサリングした触覚効果の人間味と、自動化された触覚処理のスピードとを両立する。
一部の実施形態において、モデルは動的であってよい。つまり、ユーザー/設計者が、提案/推奨された効果を却下して新規の効果を提案してよく、この新規の効果は再度取り入れられてモデルが更新されるだろう。
特定の実施形態において、モジュール16は、パーソナライズされた進化モデルを学習する(例えば一から作成されて学習し続ける、設計者当たり1つのモデル)。別の実施形態において、モジュール16は、複数のユーザー向けの、あらかじめ搭載された包括的及び/又は静的モデルを用いてよい(例えば、経験の少ないユーザー向け、又は著名な設計者等の他の設計者のモデルをユーザーが用いるため)。
特定の実施形態において、図3に図示する触覚設計機能は、リアルタイムで行われてもよいし(すなわち、ユーザーが効果を設計している間に学習する)、あらかじめ設計されたマルチメディア及び触覚作品において実行されてもよい。これは、異なるアプローチを用いて制作されたトラック(例えば、Haptic Studio等のImmersion Corporation製のオーサリングツールを使って制作されたトラック、D−Box Technology, Inc.製の装置での使用向けに制作されたトラック等)に適用されることもできる。
図4は、本発明の一の実施形態に係る、高レベルの意味論記述子を用いるベイジアンネットワーク400を図示する。離散変数を用いるベイジアンネットワーク400は、異なる観察の状態(影付きのノード)が隠れた変数の状態(白いノード)に影響する触覚効果設計モデルを記述する。本稿において、観察は既知の状態(モジュール16によって推定される)を有する変数である一方、隠れた変数の状態は不明でありモデルによって提案される。
ベイジアンネットワーク400を用いる実施形態において、ユーザーはシーンの種類、現在のイベントの種類、先行するイベントの種類、及びその関連する効果ならびにその効果の長さと強さ、をタグ付けする。このような実施形態において、モジュール16はモデル内のこの全てのデータを用いて可能性を算出し、現在のイベントに対して特定の種類の効果、ならびにその強度と持続時間、を提案できる。この算出は、過去にモデルに対して提供された、イベント/効果の前例に基づく。
図5は、本発明の一の実施形態による、低レベルの記述子を用いるベイジアンネットワーク500を図示する。連続変数を用いるベイジアンネットワーク500は、異なる観察の状態(影付きのノード)が隠れた変数の状態(白いノード)に影響する触覚効果設計モデルを記述する。本稿において、観察は既知の状態(モジュール16によって推定される)を有する変数である一方、隠れた変数の状態は不明でありモデルによって提案される。
ベイジアンネットワーク500を用いる実施形態において、モジュール16は、先行するイベントの効果の長さ、強さ、及び特徴(例えば周波数、パターン、波形)を自動的に検出/抽出する。このような実施形態において、モジュール16は、現在のイベントの音声/映像特性(例えば音声周波数プロファイル、色のヒストグラムの変化等)も自動的に検出する。このような実施形態において、モジュール16は、モデル内のこの全てのデータを用いて可能性を算出し、現在のイベントに対して効果(強さ、強度、及び種類によって記述される)を提案できる。
音声、映像、及び/又は知覚データからの、既知の自動触覚変換アルゴリズムのいくつかは、人間的な芸術的感性をしばしば欠いている。1つのマルチメディアクリップ内の同じイベントは、イベントのコンテクストに基づいて、異なる設計者によって異なる方法で触覚化されることができる。一方、実施形態は、異なる設計された効果を、特定のコンテクスト(例えば、マルチメディアのテーマ、周辺のイベントの種類等)で取り込まれた異なるマルチメディアイベントに関連付けることにより、この人間味をキャプチャする。実施形態は、次に、このキャプチャされた情報を用いて、同じ性質のイベントに遭遇した際に効果を提案できる。例えば、連続する爆発を含むアクションムービーにおいて、設計者は、最初の爆発をより重視し、強い効果でそれを触覚化し、その一方で、後続の爆発はより弱く触覚化するかもしれない。しかしながら、既知の自動変換ツールは、同様のイベントには同様の効果を割り当てる。これに対して、実施形態は、このコンテクスト要素及び芸術的感性を自動変換に取り入れる。
開示されるとおり、実施形態は、人間の触覚効果設計者の芸術的感性を考慮に入れて学習された触覚化モデルを用い、入力されたマルチメディアクリップに対し触覚効果を自動的に推奨し得る触覚設計オーサリングツールを実装する。このようにして、ユーザー/設計者が各触覚効果を手動で設計することなく、触覚効果を自動的に推奨することが可能である。
いくつかの実施形態が、本稿において具体的に図示及び/又は記載されている。しかしながら、開示された実施形態の変形及び変異が、本発明の精神及び意図される範囲から逸脱することなく、上述の記載によって網羅され、添付される請求の範囲に包含されることが理解される。