JP2007534235A

JP2007534235A - ユーザに対する特定の感情的影響を有するコンテンツアイテムを生成する方法

Info

Publication number: JP2007534235A
Application number: JP2007507884A
Authority: JP
Inventors: テレン，エリク
Original assignee: Koninklijke Philips NV; Koninklijke Philips Electronics NV
Current assignee: Koninklijke Philips NV
Priority date: 2004-04-15
Filing date: 2005-04-05
Publication date: 2007-11-22
Also published as: WO2005101413A1; US20070223871A1; CN1942970A; KR20060131981A; EP1738368A1

Abstract

メディアコンテンツを処理する方法であって、各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを取得するステップと、前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成するステップとを有することを特徴とする方法。本方法のステップでは、生成されたコンテンツアイテムが提示されているとき、生成されたコンテンツアイテムに対する当該ユーザの応答が取得される。本方法はまた、ユーザ応答を利用してコンテンツアイテムに基づき新たなコンテンツアイテムを生成するステップを有する。本方法のさらなるステップでは、セグメント間のコンテンツの相関が決定され、決定された相関は、セグメントを合成するのに利用される。

Description

本発明は、メディアコンテンツ処理方法に関し、各セグメントがあるユーザの各自の所定の感情に関連付けされたメディアコンテンツの複数のセグメントを取得するステップを有する。本発明はまた、メディアコンテンツ処理システムに関し、各セグメントがあるユーザの各自の所定の感情に関連付けされたメディアコンテンツの複数のセグメントを識別するよう構成されるプロセッサを有する。本発明はまた、メディアコンテンツの処理を可能にする方法及び当該方法に用いられるメディアコンテンツデータに関する。

ＵＳ２００３／０１１８９７４Ａ１は、ユーザの感情を示すユーザレスポンスに基づく映像インデックス処理方法を開示する。ユーザは、メディアコンテンツ視聴中に当該レスポンスを与える。上記方法は、映像コンテンツのセグメントのインデックスを生成する感情検出システムを利用する。この感情検出システムは、各セグメントをメディアコンテンツを視聴するユーザの特定の感情に関連付ける。感情検出システムは、笑顔など視聴者の顔の表情と笑い声などのユーザの声の音声信号とを合成し、映像セグメントを「幸せ」などとして識別するかもしれない。コンテンツをインデックス処理した後、ユーザは、特定のセグメントにジャンプすることによって、映像コンテンツ内の感情セグメントをブラウズすることができる。

既知の映像インデックス処理方法は、ユーザがユーザ感情に従ってインデックス処理されたメディアコンテンツをブラウズすることによって、コンテンツ内の特定のセグメントを検出することを可能にする。コンテンツのナビゲーションに対してインデックスを利用する上記既知の方法は、効率的なものではない。ユーザが特定のセグメントを検出するため、コンテンツを手動によりブラウズすることは時間のかかる作業である。ユーザは、特定のセグメントを検出するため、コンテンツ内のすべてのセグメントをブラウズする時間を有していないかもしれない。さらに、既知の方法は、ユーザがコンテンツのセグメントをどのようにして提示されることを所望するか考慮するものではない。

本発明の課題は、ユーザに対するセグメントの提示が改良され、ユーザフレンドリーかつカスタマイズされたメディアコンテンツ処理方法を提供することである。

上記課題は、本発明の方法が、
・各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを取得するステップと、
・前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成するステップと、
を有することにより実現される。

当該ユーザの特定の感情に係るセグメントが、メディアコンテンツにおいて特定される。これらのセグメントに関するユーザの感情は、セグメントを合成する前に決定されてもよい。合成されるセグメントは、実質的に同じユーザの感情に関連するものであってもよい。あるいは、これらのセグメントは、ユーザの気分を示すことが可能となるように、異なる感情に関連するものであってもよい。この結果、生成されたコンテンツアイテムは、当該ユーザに対する特定の感情的影響を有するものであってもよい。

生成されたコンテンツアイテムは、セグメントが取得されたメディアコンテンツから独立にユーザに提示することが可能である。生成されたコンテンツアイテムの提示は、個別にセグメントを分散して提示するより、ユーザに対してより強力な感情的効果を有すると仮定される。

メディアコンテンツの各部分が、コンテンツアイテムを生成するのに利用されるかもしれない。例えば、これらのセグメントは、複数の映画及び（記録された）テレビ番組からのものであるかもしれない。さらに、これらのセグメントは異なるタイプを有するかもしれない。例えば、複数の音声セグメントが、複数の映像セグメントと合成され、音声及び映像セグメントが同時に提示されるようにしてもよい。しかしながら、音声セグメントと映像セグメントは、例えば、異なる曲のアルバムや異なるテレビ番組など、異なるメディアコンテンツ部分から抽出されるかもしれない。従って、セグメントの合成は、フレキシブルな方法によるコンテンツアイテムの生成を可能にする。

本発明の一特徴では、生成されたコンテンツアイテムは、強力な経験が最適された期間に生成されるようにユーザに影響を与える。提示される際に生成されるコンテンツアイテムの期間は、セグメントが取得されたすべてのコンテンツを提示するときよりはるかに短いかもしれない。

本発明の方法によると、生成されたコンテンツアイテムに対するユーザの応答は、生成されたコンテンツアイテムが提示されている際に取得されるかもしれない。この応答は、生成されたコンテンツアイテムのあるセグメント、セグメントのある組み合わせ、又は生成されたコンテンツアイテム全体に関するものであるかもしれない。従って、それは、ユーザがコンテンツアイテムが生成及び提示されている方法に関する自らの嗜好を入力することを可能にする。

ＵＳ２００３／０１１８９７４Ａ１から知られるセグメントを提示する方法と対照的に、本発明では、セグメントは個別には利用可能とされず、合成され、コンテンツアイテムが生成される。生成されたコンテンツアイテムは、ユーザが１つずつセグメントを手動により選択するときより迅速に提示することが可能である。さらに、上記既知の方法は、映画や記録されたテレビ番組などの１つの編集単位であるメディアコンテンツにセグメントが配置される順序により当該セグメントをブラウズすることを可能にする。この制約は、セグメントが生成されたコンテンツアイテムと何れかの順序により合成可能であるため、本発明では解消される。さらに、生成されたコンテンツアイテムのセグメントの順序は、ユーザ嗜好に従って個人化及び変更されるかもしれない。

既知の方法では、合成されるようなセグメントの提示のユーザに対する影響に関する入力を感情検出システムにユーザが提供する方法はない。この既知の方法は、メディアコンテンツから抽出されたセグメントののみの提示中でなく、１つの編集単位であって、いくつかのセグメントを含むメディアコンテンツ全体の提示中、ユーザ感情を検出する可能性を提供するだけである。言い換えると、選択されたセグメントの組み合わせの提示のユーザに対する感情的影響は、この既知の方法では考慮されない。

本発明の方法によると、ユーザが合成されたセグメントを有するコンテンツアイテムに対する自らの応答を提供した後、ユーザの応答が新たなコンテンツアイテムを生成するのに利用されるかもしれない。この新たなコンテンツアイテムは、以前に生成されたコンテンツアイテムに基づくものであってもよい。さらなるセグメントの１以上の特定のセグメントは、ユーザが応答を与えた前のコンテンツアイテムのセグメントの１つを含むかもしれない。

コンテンツアイテム又は新たなコンテンツアイテムが生成されると、セグメントのコンテンツ間のコンテンツ相関が決定され、セグメントを合成するのに利用されるかもしれない。「コンテンツ相関」は、例えば、セグメントが、例えば、ユーザの誕生日などの同一のイベントに関連し、又はユーザの趣味、サンセットの画像などの類似したコンテクストを有することを意味すると理解される。他の例では、セグメントは、同じジャンル又は同じアーチストの曲の一部であってよく、あるいは、セグメントは、ユーザの同じ好みの俳優又はカーチェイスなどの類似したアクションなどを備えた映画シーンであるかもしれない。

本発明のさらなる特徴によると、メディアコンテンツは、ユーザからの個人的情報を有するかもしれない。例えば、セグメントは、ユーザと彼の家族の写真、ユーザの音楽又は映画コレクションなどを有するかもしれない。メディアコンテンツは、汎用的であるかもしれない。例えば、汎用メディアコンテンツは、ユーザグループによって積極的に予めテストされたポピュラー音楽又はメディアコンテンツを有するものであってもよい。

本発明の課題はまた、メデイアコンテンツが処理されることを可能にする方法であって、
・各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを表すメタデータを取得するステップと、
・前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成するため前記メタデータを利用してインデックスデータを取得するステップと、
を有することを特徴とする方法によって実現される。

このメデイアコンテンツが処理されることを可能にする方法は、データネットワーク上のデータサービスとして実現されるかもしれない。このサービスは、セグメント毎又はコンテンツメディアアイテム毎の特定のユーザ（統計上平均的なユーザ、又はある人口統計学的セクタを代表するユーザ）の感情的応答を追跡し、関連するセグメントを自動的に抽出及び合成するため、ポインタのリスト（インデックスデータ）をエンドユーザに提供する。サービスプロバイダは、この場合、セグメントを「取得」及び「合成」せず、メタデータを処理する。

上記方法は、各セグメントがあるユーザの所定の各自の感情に関連付けされたメディアコンテンツの複数のセグメントを表すメタデータを有するメデイアコンテンツデータを利用し、当該メタデータは、当該ユーザへの提示のためのコンテンツアイテムへのセグメントの合成を可能にする。

本発明の課題はまた、本発明によるシステムが、
・各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを特定し、
・前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成する、
よう構成されるプロセッサを有することにより実現される。

本システムは、本発明の方法を参照して説明されるように動作するかもしれない。

本発明の上記及び他の特徴が、実施例を介しさらに説明され、以下の図面を参照して説明される。

図１は、メディアコンテンツ処理システム１００のブロック図である。システム１００は、メディアコンテンツの複数のセグメントを識別するよう構成されるプロセッサ１１０を有する。プロセッサは、メディアコンテンツ記憶装置１２０に接続されるかもしれない。例えば、プロセッサと記憶装置は、同一の（物理的）装置内に構成される。他の例では、記憶装置は、プロセッサから遠隔にあり、例えば、プロセッサは、ホームネットワーク、ケーブルテレビプロバイダとの接続又はインターネットなどのデジタルネットワークを介し記憶装置にアクセスするかもしれない。

メディアコンテンツは、映像情報、音声情報、テキストなどの少なくとも１つ又は何れかの組み合わせを有するかもしれない。以降において、「音声コンテンツ」又は「音声データ」という表現は、可聴なトーン、沈黙、発話、音楽、静寂、外部の雑音などを有する音声に関するデータとして利用される。「映像コンテンツ」又は「映像データ」という表現は、動画、静止画、グラフィックシンボルなど可視的なデータとして利用される。

メディアコンテンツ記憶装置１２０は、音声テープ、ビデオテープ、ＣＤ−ＲＯＭ（ＣｏｍｐａｃｔＤｉｓｃＲｅａｄＯｎｌｙＭｅｍｏｒｙ）ディスク、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）ディスクなどの光記憶ディスク、フロッピー（登録商標）及びハードドライブディスク、ソリッドステートメモリなどの異なるデータキャリアにメディアコンテンツを格納するかもしれない。メディアコンテンツは、ＭＰＥＧ（ＭｏｔｉｏｎＰｉｃｔｕｒｅＥｘｐｅｒｔｓＧｒｏｕｐ）、ＪＰＥＧ、ＭＩＤＩ（ＭｕｓｉｃａｌＩｎｓｔｒｕｍｅｎｔＤｉｇｉｔａｌＩｎｔｅｒｆａｃｅ）、Ｓｈｏｃｋｗａｖｅ、ＱｕｉｃｋＴｉｍｅ、ＷＡＶ（ＷａｖｅｆｏｒｍＡｕｄｉｏ）などの何れかのフォーマットによるものであってもよい。

プロセッサは、メディアコンテンツを処理し、メディアコンテンツからのセグメントをカットオフ（選択）するよう構成されてもよい。これらのセグメントは、メディアコンテンツとは別にメディアコンテンツ記憶装置１２０に格納されてもよく、あるいは、何れかに格納されてもよい。あるいは、プロセッサ１１０は、メディアコンテンツを記述するメタデータを生成するかもしれない。メタデータは、セグメントが容易に特定され、メディアコンテンツから抽出され、提示装置を介しリアルタイムに提示又はスケジューリングされる（抽出が完了した後）ように、メディアコンテンツのセグメントを明確に識別するのに利用されるかもしれない。メタデータは、例えば、既知のコンテンツ分類アルゴリズムなどにより自動的に、又はユーザによる明示的注釈により手動により追加されるかもしれない。メタデータは、セグメントを特定するためのポインタ又は他の機構を含むかもしれない。マーカーが、各セグメントの始めと終わりをマーク付けするのに利用されてもよい。例えば、マーカーは、指定されたフレームがセグメントの少なくとも最初と最後のフレームであるＭＰＥＧフォーマットにより映像シーケンスの特定のフレームを指定する。メディアコンテンツは、一般には、メディアコンテンツのフォーマットに応じて、一定の期間に別々に提示可能なブロックであるフレームなどのブロックシーケンスによって表されるかもしれない。マーカーは、このようなブロックを指示するかもしれない。メタデータはまた、セグメントのコンテンツのフォーマットタイプ（音声、映像、静止画など）、ジャンルなどの意味的タイプ、メディアコンテンツのソース（テレビチャンネルの名前、映画のタイトルなど）、セグメントはユーザにより視聴又は記録されたか示すための視聴／記録履歴など、セグメントを記述する情報を含むかもしれない。メタデータは、メディアコンテンツ記憶装置１２０又は他の記憶手段に格納されてもよい。メディアコンテンツのセグメントは連続的なものである必要はなく、例えば、セグメントはオーバーラップ（ｏｖｅｒｌａｐ）又はネスト（ｎｅｓｔ）されてもよい。メタデータの代わりとして、プロセッサは、特定のセグメントの始めと終わりをラベル付けするため、「セグメントスタート」タグ及び／又は「セグメントエンド」タグをメディアコンテンツに挿入するよう構成されるかもしれない。

さらに、プロセッサ１１０は、特定のユーザに対する提示に適したコンテンツアイテムを生成するため、識別されたセグメントを合成するよう構成される。コンテンツアイテムの生成は、個別に格納されるメディアコンテンツ各セグメントがコンテンツアイテムを構成するよう連結されていることを意味するかもしれない。セグメントの個別の格納は、各セグメントがそれらを合成するのに迅速にアクセス可能であるという効果を有する。

あるいは、各セグメントは、メディアコンテンツとは分離されない。代わりにインデックスデータが生成され、メディアコンテンツ各セグメントが適切なインデックスにより識別されるセグメントを単に選択することによって提示されることを可能にする。インデックスデータの要素は、コンテンツアイテムのセグメントを表し、セグメントを識別子、対応するメディアコンテンツを適切に処理し、メディアコンテンツのセグメントを選択的に提示するのに十分な情報を提供する。メディアコンテンツからのセグメントの抽出は、本ケースでは必要ではなく、またメディアコンテンツとは別々にセグメントを格納する必要はない。これは、同じコンテンツ部分が２回格納されず、格納スペースが節約されるという効果を有する。従って、セグメントに対するさらなる格納は必要ではない。

インデックスデータは、セグメントが取得されるメディアコンテンツを識別するためのメディアコンテンツ識別子を有するようにしてもよい。例えば、メディアコンテンツ識別子は、テレビ番組タイトル、映画タイトル、曲タイトル、アーチストの名前又はコンテンツの音声／映像パラメータに関するデータである。メディアコンテンツ識別子データは、メディアコンテンツが格納されている場合には常にメディアコンテンツのセグメントを抽出するのに十分な情報を有するかもしれない。ＵＲＬ（ＵｎｉｆｏｒｍＲｅｓｏｕｒｃｅＬｏｃａｔｏｒ）アドレス、ネットワークプロトコルアドレスなどの格納識別子が、インターネット上のウェブサーバやユーザのホームネットワークのパーソナルコンピュータ（ＰＣ）などのリモートアクセス可能な記憶装置を識別するのに利用されるかもしれない。インデックスデータは、少なくとも部分的にメタデータを用いて生成されるかもしれない。例えば、曲の音声セグメントの位置に関する情報が、メタデータから取得されるかもしれない。

コンテンツアイテムは、提示装置１３０により提示される。提示装置は、ＣＲＴモニタ、ＬＣＤスクリーンなどのビデオディスプレイ、ヘッドフォンやラウドスピーカーなどの音声再生装置、又は特定タイプのメディアコンテンツを提示するのに適した他の手段を有するかもしれない。提示装置１３０は、それらが同一の（物理的）装置に収容されるように、プロセッサ１１０に接続されてもよい。あるいは、プロセッサは、提示装置が遠隔に配置されているとき、コンテンツアイテムを提示装置に転送することを可能にするよう構成される。例えば、ケーブルテレビプロバイダ装置はプロセッサ１１０を有し、コンテンツアイテムは、ケーブルテレビネットワークを介し提示装置１３０を収容するリモートクライアント装置に送信される。コンテンツアイテムのリモート提示装置１３０への配信は、インデックスデータを利用することにより保証されるかもしれない。実際、プロセッサは、提示装置にインデックスデータのみを転送するかもしれない。この例では、提示装置は、インデックスデータを利用してコンテンツアイテムのセグメントを自動的に抽出するよう構成される。

プロセッサは、特定のユーザから生成されたコンテンツアイテムに対する応答を取得するよう構成されるかもしれない。例えば、この応答は、メディアコンテンツアイテムが提示されているとき、ユーザから取得される。ユーザ入力装置１４０は、ユーザがユーザの応答を入力することを可能にするかもしれない。例えば、入力装置は、ユーザがコンテンツアイテムの特定のセグメント又はセグメントの組み合わせを好むとき、ユーザが押下することが可能な１以上のボタンを有するかもしれない。例えば、入力装置は、「私は、現在提示されているセグメントを好む」、又は「私は、前に提示されたセグメントと現在のセグメントの組み合わせを好む」などを示すボタンを有するかもしれない。ユーザはまた、幸せ、楽しみ、悲しみ、怒り、恐怖など、コンテンツアイテムの提示中に呼び起こされる気持ち／気分／感情に応じて異なるボタンを使用するようにしてもよい。他の例では、入力装置は、タッチ画面、音声認識インタフェースなどを含む。さらなる例では、ユーザは、自らの入力を入力するため入力装置１４０を積極的には操作しない。代わりに、入力装置１４０が、ユーザをモニタし、ユーザの感情的応答を導くかもしれない。例えば、そのような入力装置は、ＵＳ２００３／０１１８９７４Ａ１に開示されるような感情検出システムにより実現される。感情検出システムは、ユーザの顔の表情と物理的な動きをキャプチャするための画像センサを備えたビデオカメラを有する。このシステムはまた、ユーザの声を表す音声信号をキャプチャするマイクロフォンなどの音声センサ、又はユーザが動揺しているなどを示すユーザの体温の変化を測定する温度センサを任意的に有する。

本発明の実施例の１つでは、システム１００は、プロセッサ１１０と、ユーザ入力装置１４０と提示装置１３０とを有する携帯装置として実現される。例えば、このような携帯装置は、携帯オーディオプレーヤー、ＰＤＡ（ＰｅｒｓｏｎａｌＤｉｇｉｔａｌＡｓｓｉｓｔａｎｔ）、高画質ディスプレイを備えた携帯電話、携帯ＰＣなどから構成される。携帯装置は、ビューインググラス（ｖｉｅｗｉｎｇｇｌａｓｓｅｓ）やヘッドフォンなどから構成されるかもしれない。

図２は、本発明の方法の実施例の図である。本方法は、メディアコンテンツの複数のセグメントを取得するステップ２１０を有する。

例えば、ユーザが映画やテレビ番組などの各種メディアコンテンツ部分を視聴している間に、ユーザが音楽を試聴し、音楽ＣＤを購入し、店で曲を試聴している間などに、セグメントは識別される。セグメントは、メディアコンテンツの関連する部分に関してマーク付けされるかもしれない。例えば、メディアコンテンツのセグメントをマーク付けするのにメタデータが生成される。所定のタイプのユーザ感情が検出されるときは常に、メタデータが蓄積及び生成されるかもしれない。メタデータは、例えば、環境に関する情報（日次や他の潜在的に重要な状態など）を格納などすることによって、自動的（暗黙的）に収集することが可能である。メタデータはまた、フィードバックのため（例えば、「あなたは、この曲を本当に好きだったのですか？」）、又は付加情報のため（例えば、「あなたがこれと類似していると考えるアーチストを指名してください」など）ユーザに問い合わせることになどによって、手動的（明示的）に収集することも可能である。

基本的に、再生中にユーザが特定の感情を示すすべてのセグメントが、必ずしもユーザに対する提示のために選択される必要はない。セグメントからの選択は、コンテンツアイテムにおいて合成されるべきセグメントを検出するのに必要とされるかもしれない。ステップ２２０において、メディアコンテンツのセグメント間のコンテンツ相関が、合成されるべきセグメントを検出するため決定される。本発明によると、さらに、これらのセグメントは、実質的に同じ感情と関連付けされてもよく、それらはコンテンツに相関されているかもしれない。

実際、所定の感情に関するセグメント間の相関値が、コンテンツアイテムを生成するのに利用されるかもしれない。例えば、２以上のセグメントは、それらがある所定の相関値を有する場合、又は決定された相関値がある予め設定された閾値を超える場合、合成される。このような相関値は、コンテンツアイテムのセグメントがどのように相関しているか示す。一例では、相関は、あるユーザがセグメントの意味コンテンツに基づき２以上のセグメント間の関係を認識している程度を表すかもしれない。例えば、相関値は、正又は負であってもよい。正の相関値の具体例は、例えば、第１のセグメントが海岸の休日のユーザの短い映画セグメントであり、第２のセグメントが他の休日のユーザの家族に関する映画セグメントなどの同様のテーマの他の映画セグメントである２つのセグメントに関する。第１セグメントの選択なしには、例えば、ユーザはこれらのセグメントの１つを視聴するためにめったには選択しなかったため、第２セグメントはそれ自体選択される必要はない。

このような相関値は、所与のセグメントのメタデータ、すなわち、第２セグメントに関する情報に含まれるかもしれず、決定された相関値は、第１セグメントのメタデータについて格納されるかもしれない。

好ましくは、合成対象となるセグメントは、意味的に同じものではない。負のコンテンツ相関値が、同一のセグメントについて生成されかもしれない。

セグメント間の意味的相関の代わりに、又はそれに加えて、感情相関が特定のセグメントについて決定される。一実施例では、第１セグメントが第２セグメントと意味的に類似する第１セグメント間の感情相関が、決定された第２セグメント間の感情相関を利用して予測される（言い換えると、第１セグメントと第２セグメントの間の意味的／コンテンツ相関は正である）。

実施例の１つでは、ユーザは初期的に、すなわち、セグメントを合成する前に、テーマやトピックを指定し、又はコンテンツアイテムに含まれるべきセグメントの選択に対する自分の嗜好に関する他の情報を提供するかもしれない。このような嗜好を示す対応するユーザインタフェース手段が、ユーザに利用可能である。

他の実施例では、合成対象となるセグメントの選択は、生成されるコンテンツアイテムの所望の期間に応じて実行される。この期間は、ユーザ又はシステムによって予め設定されるかもしれない。その後、システムは、コンテンツアイテムの所望の期間が取得されるように、セグメント提示する期間を考慮して、セグメントを選択しようとする。

ステップ２３０において、セグメントは合成され、コンテンツアイテムが生成される。例えば、セグメントは、セグメント間の正のコンテンツ相関（及び／又は正の感情相関）が固守されるように、シーケンスに合成される。任意的には、１以上の音声及び／又は映像効果がセグメントの組み合わせに適用される。例えば、融合、変形、遷移又は歪み効果が適用される。音声セグメントの音量が変更され、映像セグメントの輝度及びカラーパラメータが変更されるかもしれない。互いの上部に（オーバーレイ（ｏｖｅｒｌａｙ）モードにおいて）又は互いの隣に２つの映像セグメントが示されるかもしれない。各セグメントは、フェードイン及びフェードアウトしたり、又は強度が変更されるかもしれない。映像セグメントは、異なる音声セグメントと合成されるかもしれない。また、人工的な要素（例えば、鳥の声などのある音声効果やきらめく星などのある映像効果など）が、コンテンツアイテムに一体化されるかもしれない。これらの効果の利用は、連続するセグメントの低時間の遷移の自然なフローを生成する。これらの効果は、合成されたセグメント間のシームレスな遷移を実現するのに用いられる。このような技術／効果は、映像処理及びコンテンツ編集における技術状態などから広く知られている。

ステップ２４０において、生成されたコンテンツアイテムが、提示装置がレンダリング可能なメディアコンテンツのタイプに応じて、１以上の提示装置を利用してユーザに提示される。

生成されたコンテンツアイテムの提示は、ユーザに対して特殊な感情効果を有するであろう。この効果は、特にコンテンツアイテムの各セグメントの感情効果を集計することによって引き起こされる。セグメントの特定の組み合わせの効果はまた、別々のセグメントの各効果より協力であるかもしれない。このような組み合わせは、ユーザに対するコンテンツアイテムの効果に寄与するかもしれない。

ユーザは、選択されたセグメントがコンテンツアイテムに含まれることを所望するかもしれないが、同程度ではないかもしれない。ユーザは、他のセグメントより一部のセグメントをより嗜好するかもしれない。従って、ユーザは、特定のセグメント又はセグメントの組み合わせに関して、コンテンツアイテムが変更されることを所望するかもしれない。例えば、ユーザは、自分が他のセグメントよりあるセグメントをより嗜好し、又は他のセグメントよりあるセグメントをあまり嗜好しないという応答を提供することを所望する。生成されたコンテンツアイテムに対するユーザの応答が、ステップ２５０において取得される。

この応答機構は、ユーザが特に楽しんだ、又は感心したセグメントの生成中に押下するシンプルなボタンから、あまり量子化されていない「幸福レベル」のより連続的な指標のためのスライダやホイール、又は各種タイプの感情のためのボタンセットなどのはるかにより複雑な構成まで広範なものであるかもしれない。ユーザフィードバック、すなわち、ユーザ応答は、タッチ、スピーチ又はビジョンなどの何れか利用可能なユーザインタフェースモダリティを介し収集されるかもしれない。潜在的には、ユーザは、生成されたコンテンツアイテムの音声及び映像部分について独立したフィードバックを提供することが可能であるかもしれない。

ステップ２６０において、ユーザ応答が解析される。システム１００のタスクは、ユーザが自分の応答を提供するものについて決定することである。例えば、ユーザ応答は、コンテンツアイテム全体、特定セグメント又は一部のセグメントの組み合わせに関する。

一例では、ユーザ応答は、ユーザが生成されたコンテンツアイテムの特定のセグメントを好んでいることを示す。この指標は、「私は、現在提示されているセグメントを好む」などの特定のユーザ応答に係るボタンの押下に対応する出力信号を検出することによって決定されるかもしれない。この応答が参照するセグメントが識別されるかもしれない。セグメントとユーザ応答との間の同期機構が、この目的のために利用されるかもしれない。現在のセグメントは、応答と相関している。ユーザに対するセグメントの効果と応答が受信される時間との間に遅延が発生するかもしれない。この遅延は、例えば、ユーザが何れのセグメントが提示されているか、この提示がユーザの気分にどのように影響を与えるかについて、ユーザは予め知らないかもしれないため、発生する。さらに、ユーザは、自らが受ける感情的効果が存在することを実現するための時間を必要とするかもしれない。この同期機構は、好ましくは、応答に関して時間シフトされるセグメントと応答を関連付けることによってこのような遅延を考慮するよう構成される。これは、特に比較的短いセグメントに関連する。システムが当該応答が関連付けされるべきであったセグメントを明確に識別することができない場合、システムは、可能性のある各種仮説を格納し、それらの１つが正しいという仮定の下で進捗する。ユーザに対する以降の提示中、仮説を立証又は拒絶するさらなる応答が取得される可能性がある。立証する場合、システムは、他のすべての仮説を破棄する。拒絶の場合、システムは、現在の仮説を破棄し、ユーザに対する次の提示中に次の仮説を立証しようとする（以下でより詳細に説明される「トライアル・アンド・エラー」アプローチ）。

ユーザがシステムに「私は、セグメントの現在の組み合わせを好む」という自分の応答を与える場合、現在提示されているセグメントが、前に提示されたセグメントと共に、識別されるかもしれない。これらの連続するセグメントの何れもが、その後、取得された応答が参照するセグメントの組み合わせとしてみなされる。

システム１００は、ユーザフィードバックを利用して、正のフィードバックをもたらしたこれらの要素、すなわち、コンテンツアイテムのセグメント又はセグメントの組み合わせを強調するため、及び／又はフィードバックをもたらさない、又は負のフィードバックをもたらしたプログラムの要素を重視しない。各要素を重視しないことによって、新たなセグメントなどの新たな要素が、コンテンツアイテムに含まれるかもしれない。ステップ２７０において、メディアコンテンツの新たなセグメントが、ステップ２１０と同様にして取得される。

任意的には、ステップ２８０において、提示されたコンテンツアイテムの１以上のセグメントと取得された１以上の新たなセグメントとの間のコンテンツ相関が決定される。負のコンテンツ相関のセグメントの組み合わせが変更され、例えば、セグメントの１つがコンテンツアイテムから削除される。

コンテンツ相関とは独立に、セグメントの組み合わせが、当該組み合わせの所望されない感情的効果を示すユーザ応答を引き起こした場合（このセグメントの組み合わせはさらに、負の「感情的相関」を有すると参照されるかもしれない）、当該組み合わせは、例えば、セグメントの順序を変更などすることによって変更されるかもしれない。従って、新たなセグメントの組み合わせが、ユーザ応答の解析の結果として取得され、新たなコンテンツアイテムが、ステップ２９０において、以前に生成されたコンテンツアイテムに基づき生成される。

より詳細なレベルでは、コンテンツは、そのすべてがユーザの全体的な感情的経験に寄与する何れかの時点での複数のレイヤ、すなわち、音声セグメント、映像セグメント、現在再生されている音声／映像効果などを有するものとして解釈されるかもしれない。このフィードバックは、ユーザ応答と最適に同期される要素に特に関連する。例えば、ある画像が示される期間中にボタンが正確に押下されると、特にこの画像は取得されたフィードバックと最も強力に相関するかもしれない。

解析の終わりに、各要素に対する取得された正の／負のユーザ応答が解析され、新たなコンテンツアイテムが構成され、すなわち、この解析結果に基づき生成される。

コンテンツアイテムが新たに生成されたコンテンツアイテムに含まれるいくつかのセグメントに対する以前のユーザ応答を利用することによってすでに変更されている場合、以前の応答が考慮されるかもしれない。

新たなコンテンツアイテムは、１以上のさらなるセグメント、すなわち、新たなセグメントと、「良好な」スコアを受け取った前のコンテンツアイテムに使用されるセグメントとを有する（正の又は中立的なフィードバック、フィードバックが全くない、又はわずかに負のフィードバック）。新たなコンテンツアイテムに含まれる新たなセグメントが、新たなコンテンツアイテムの生成前、例えば、前のコンテンツが生成されたが、新たなセグメントはまだユーザ応答を取得していないときなど、システムにおいて利用可能である。例えば、新たなセグメントは、コンテンツアイテムの何れのセグメントの一部として、しかしながら、それのソースであるメディアコンテンツの範囲内においてのみ以前にユーザに提示されていない。

ステップ２６０において適用される解析は、好ましくは、ユーザ応答を解釈するための推論機構を利用する。ユーザ応答は、それが提示されたコンテンツアイテムに関連する方法において曖昧であるかもしれない。例えば、ユーザ応答は、「私は、コンテンツアイテムの音声コンテンツを好む」、「私は、コンテンツアイテムの現在の音声セグメントを好む」、「私は、コンテンツアイテムの映像部分を好む」又は「私は、現在の音声及び映像セグメントがコンテンツアイテムにおいて合成されている方法を好む」などのステートメントの何れかを表すかもしれない。

推論機構は、ユーザ応答に関して仮定を行っている。この仮定は、新たなコンテンツアイテムを生成するのに利用される。新たなコンテンツアイテムの提示中、これらの仮定がテストされている。仮定がなされたセグメントが正のユーザ応答、中立的なユーザ応答又を受け取っている場合、又はユーザ応答を受け取っていない場合、この仮定は正しいものとみなされるかもしれない。

この仮定は、誤っていると証明されるかもしれない。例えば、新たなコンテンツアイテムについて取得されたユーザ応答は、新たなコンテンツアイテムの各セグメントについて正でない。この場合、さらなる仮定がなされ、以降に生成されるコンテンツアイテムにおいて使用されてもよい。

要約すると、「トライアル・アンド・エラー」アプローチが、ユーザ応答を解析し、新たなコンテンツアイテムを生成するのに利用可能である。以前のセッション中に取得されたフィードバックと新たなセグメントの利用性に基づき、システム１００は、ユーザが好むかもしれないものについて仮説をし、これに従って新たなコンテンツアイテムを編集する。コンテンツアイテムの多数の生成の後、最適されたコンテンツアイテムが徐々に取得されるかもしれない。

ユーザ応答は、好ましくは、ユーザ応答の整合性に関して解析される。例えば、ユーザフィードバックは、類似したセグメントが当該コンテンツアイテムと新たなコンテンツアイテム（類似するセグメントを提示する異なるセッション中）の異なるフィードバックを取得するため、不整合であると見える。

このような不整合性を処理するため、各種ルールが適用可能である。
・履歴なし：直近のセッション（新たなコンテンツアイテムに対する）からのフィードバックのみが考慮される。
・忘却機構：直近のセッションからのフィードバックが、当該セグメントの加重値を計算するための計算処理において最も大きな加重ファクタを受け取る。以前のセッションからのフィードバックは、新たなコンテンツアイテムより徐々に小さな加重ファクタを取得する。
・平均フィードバック値が、提示されているコンテンツアイテムのあるセグメントについて計算され、新たなコンテンツアイテムを生成するのに利用される。
・傾向：様々なセッションからのフィードバックが累積されるが、全体的に最も顕著な（正又は負）であるフィードバック傾向のみが、特定のセグメントを新たなコンテンツアイテムに組み込むか、そしてどのように組み込むかについて決定するのに考慮される。

ユーザが提示されたコンテンツアイテムに対してフィードバックを提供しない場合、以下の選択肢が新たなコンテンツアイテムを生成するのに利用可能であるかもしれない。
・「リセット」オプション：提示されたコンテンツアイテムのセグメントが、等しい加重値を受け取るか、又はすべての加重値がゼロに等しくされてもよい。
・変更なし：コンテンツアイテムが、変更されない形式により他の時点に提示され、次の提示中に全く同様にして実行されるかもしれない。

本発明の実施例の１つは、ユーザが当該メディアコンテンツのセグメントを取得するのに利用されるべきメディアコンテンツのタイプを選択することを可能にする。例えば、システムは、コンテンツアイテムの生成前に、又は新たなコンテンツアイテムの生成前に、ユーザにセットアップ画面を提示するかもしれない。このセットアップでは、ユーザは、曲、画像、効果、マンガなどのメディアコンテンツのタイプを選択する。

本発明の実施例では、汎用及び／又は個人用メディアコンテンツが、セグメントを取得するのに利用される。例えば、個人用メディアコンテンツは、ユーザの写真又は静止画、ユーザによって撮影又は収集された写真などを有するかもしれない。汎用コンテンツは、正の感情効果を有するものとして多数の他のユーザによって認められたコンテンツであるかもしれない。例えば、人々は、子猫や子犬の画像又は海岸の美しいサンセットの画像を所望する。個人用コンテンツは、汎用コンテンツのセグメントではなく、個人用コンテンツのセグメントを有するコンテンツアイテムの提示中、ユーザから感情応答をおそらく呼び起こすであろう。個人用及び汎用コンテンツのセグメントは、当該セグメントがコンテンツアイテムにおける組み合わせのため選択されるとき、それらを区別するためラベル付けすることが可能である。

個人用メディアコンテンツのセグメントは、組み合わせのために選択されてもよいが、セグメント間のコンテンツの相関は適切ではないかもしれない。個人用コンテンツのこのようなセグメントを組み合わせるため、汎用コンテンツのセグメントは以下のように使用されるかもしれない。例えば、個人用コンテンツの２つのセグメントによる正のコンテンツ相関を有する汎用コンテンツのセグメントは、個人用コンテンツの当該セグメント間に挿入される。

本発明の他の実施例では、システムは、ユーザが生成されるコンテンツアイテムの個人用コンテンツと汎用コンテンツとの間の比を選択することを可能にする。例えば、この比は、同じコンテンツアイテム内の汎用コンテンツのセグメントの個数に対するコンテンツアイテムの個人用コンテンツのセグメントの個数を決定することによって計算される。他の例では、この比は、コンテンツアイテムの汎用コンテンツのセグメントの再生時間に関する個人用映像コンテンツのセグメントの再生時間を計算することによって決定される。

本発明のさらなる他の実施例は、幸福感を呼び起こすコンテンツアイテムを生成するよう構成されるシステムに関する。このようなシステムは、可能な限り頻繁にこの感情を経験させるために、関連するコンテンツアイテムとやりとりするのにユーザによって定期的に利用されるかもしれない。このような経験を生成する極めて直接的な方法は、繰り返し生成されるコンテンツアイテムとユーザとの通常のやりとりにより最終的には生成されるかもしれない大変個人化されたコンテンツアイテムとシステムにより実現される。大部分の人々は、幸福レベルが増大するであろう。

図３は、提示されたコンテンツアイテムとユーザ応答３９０に基づき生成される新たなコンテンツアイテム３５０の一例と、提示されたコンテンツアイテム３００の一例の図である。

提示されたコンテンツアイテム３００は、期間（Ｔ１−Ｔ２）を有する。コンテンツアイテムの提示中、応答３９０が取得されている瞬間は、提示されているコンテンツアイテム３００の特定のセグメントに関連付けされる。この応答に対応する特定されたセグメントは、図において斜線により示されている。特定されたセグメントは、それらを新たなコンテンツアイテム３５０に組み込むために選択されるが、それらは異なる方法により合成される。応答が取得されなかったコンテンツアイテム３００のセグメントは、置換され、異なる順序により新たなコンテンツアイテム３５０に再合成される。新たなセグメントは、新たなコンテンツアイテム３５０に組み込むことが可能である。

図４は、映像コンテンツ４２０のセグメントと音声コンテンツ４３０のセグメントを有する提示されたコンテンツアイテム４１０の一例の図である。音声コンテンツ４３０と映像コンテンツ４２０は、再生されるとき等しい時間を有する。音声セグメントと映像セグメントは、ユーザに同時に提示される。ユーザ応答４４０が、コンテンツアイテムを提示する特定の瞬間に取得される。各応答が取得される瞬間において提示される映像コンテンツ４２０のセグメント４２５が識別される（斜線領域により表される）。これらの応答に対応する音声コンテンツ４３０のセグメント４３５がまた特定される（斜線領域により表される）。新たなコンテンツアイテム４５０を生成するため、特定された音声及び映像セグメントが、それらを新たなセグメントと合成するために選択される。なぜなら、提示されたコンテンツアイテム４１０のセグメントの一部又はすべてが受け付けた応答４４０の何れかに関連付けされているとは限らないためである。提示されたコンテンツアイテムから新たなコンテンツアイテムまでのセグメントのいくつかの例の再構成（順列、順序のシフト）が、コンテンツアイテム４１０と新たなコンテンツアイテム４５０との間の対応する矢印により図４において示される。

特定された映像セグメント４２５は、特定された音声セグメント４３５と同じ時間を有しないということに留意すべきである。しかしながら、ある音声セグメントとある映像セグメントの両方が、当該音声セグメントと共に同時に提示され、当該時点に取得された同じ応答と関連付けされる。同じ応答に係るこのようなセグメントの等しくない時間の結果として、複数の音声セグメントが１つの映像セグメントに対応し、その反対も成立するかもしれない。この一対多数の対応は、新たなコンテンツアイテムが構成されるときに維持されるかもしれない。さらに、音声セグメントと映像セグメントの間の関係は、新たなコンテンツアイテムに含まれるべき新たな音声セグメントと新たな映像セグメントの選択に影響を与えるかもしれない。基本的に、特定の時間を有するいくつかの新たなセグメントは、特に関連する音声及び映像セグメントが新たなコンテンツアイテム４５０の始めに配置されるとき、関連する音声及び映像セグメントの時間の時間差に適合するよう要求されるかもしれない。

各種コンピュータプログラムプロダクトが、本発明の装置及び方法の機能を実現可能であり、ハードウェアによりいくつかの方法により組み合わされ、他の異なる装置に配置されてもよい。

説明された実施例の変形及び改良は、本発明のコンセプトの範囲内で可能である。例えば、本発明によるシステムは、単独の装置により実現されてもよく、あるいは、サービスプロバイダとクライアントを有するようにしてもよい。あるいは、システムは、プロセッサ、でメディアコンテンツ記憶装置及び提示装置と組み合わされたユーザ入力装置を備えた装置を有してもよく、すべての装置は分散化され、遠隔に配置されるかもしれない。

動詞「有する」及びそれの活用の使用は、請求項に規定された以外の要素又はステップの存在を排除するものではない。本発明は、いくつかの異なる要素を有するハードウェアにより、そして適切にプログラムされたコンピュータによって実現可能である。複数の手段を列挙したシステムクレームにおいて、これらの手段のいくつかは１つの同一のハードウェアアイテムにより実現可能である。

図１は、本発明によるシステムの実施例の機能ブロック図である。図２は、本発明の方法の実施例である。図３は、生成されたコンテンツアイテム、生成されたコンテンツアイテムが提示されている際のユーザ応答、及び生成された新たなコンテンツアイテムを示す。図４は、音声セグメントと映像セグメントとを有する生成されたコンテンツアイテム、生成されたコンテンツアイテムが提示されている際のユーザ応答、及び音声セグメントと映像セグメントとを有する生成された新たなコンテンツアイテムを示す。

Claims

メディアコンテンツを処理する方法であって、
各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを取得するステップと、
前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成するステップと、
を有することを特徴とする方法。
請求項１記載の方法であって、さらに、
前記生成されたコンテンツアイテムが提示されている際、前記生成されたコンテンツアイテムに対する前記ユーザの応答を取得するステップを有することを特徴とする方法。
請求項２記載の方法であって、さらに、
前記ユーザの応答を利用して、前記コンテンツアイテムに基づき新たなコンテンツアイテムを生成するステップを有することを特徴とする方法。
請求項１又は３記載の方法であって、さらに、
前記セグメント間のコンテンツ相関を決定するステップを有し、
前記決定された相関は、前記セグメントを合成するのに利用される、
ことを特徴とする方法。
請求項２記載の方法であって、
前記応答は、前記生成されたコンテンツアイテムのあるセグメント、又は前記セグメントのある組み合わせに関することを特徴とする方法。
請求項１記載の方法であって、
前記合成するステップは、融合、変形、遷移及び歪みの少なくとも１つから選択される少なくとも１つの映像及び／又は音声効果を前記セグメントに適用するステップを有することを特徴とする方法。
請求項１記載の方法であって、
前記メディアコンテンツは、前記ユーザの個人用コンテンツ及び／又は汎用コンテンツを有し、
さらに、前記個人用コンテンツのセグメントを接続するため前記汎用コンテンツの少なくとも１つのセグメントを選択するステップを有する、
ことを特徴とする方法。
請求項７記載の方法であって、
前記メディアコンテンツは、前記ユーザの個人用コンテンツ及び／又は汎用コンテンツを有し、
さらに、前記生成されたコンテンツアイテムの前記個人用コンテンツに関する前記汎用コンテンツの比を制御するステップを有する、
ことを特徴とする方法。
請求項３記載の方法であって、
最後に生成されたコンテンツアイテムに対する応答のみが解析され、又は、
最後に生成されたコンテンツアイテムに対する応答が、前の応答より大きな加重を有し、又は
生成されたコンテンツアイテムに対する応答の平均が計算される、
ことを特徴とする方法。
メディアコンテンツを処理するシステムであって、
各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを特定し、
前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成する、
よう構成されるプロセッサを有することを特徴とするシステム。
請求項１０記載のシステムであって、
前記プロセッサは、前記生成されたコンテンツアイテムが提示されている際に、前記生成されたコンテンツアイテムに対する前記ユーザの応答を取得するよう構成されることを特徴とするシステム。
請求項１１記載のシステムであって、
前記プロセッサは、前記ユーザの応答を利用して前記コンテンツアイテムに基づき新たなコンテンツアイテムを生成するよう構成されることを特徴とするシステム。
請求項１０又は１２記載のシステムであって、さらに、
前記プロセッサに接続され、前記ユーザが前記プロセッサに前記ユーザの応答を提供することを可能にするユーザ入力装置と、
前記コンテンツアイテム又は前記新たなコンテンツアイテムを前記ユーザに提示する提示装置と、
を有することを特徴とするシステム。
当該コンピュータプログラムを実行する際、プログラマブル装置が請求項１３記載のシステムとして機能することを可能にするコンピュータプログラム。
メデイアコンテンツが処理されることを可能にする方法であって、
各セグメントがあるユーザの所定の各自の感情に関連付けされた前記メディアコンテンツの複数のセグメントを表すメタデータを取得するステップと、
前記ユーザに提示するためのコンテンツアイテムを生成するため、前記セグメントを合成するため前記メタデータを利用してインデックスデータを取得するステップと、
を有することを特徴とする方法。
各セグメントが、あるユーザの所定の各自の感情に関連付けされたメディアコンテンツの複数のセグメントを表すメタデータを有するメディアコンテンツデータであって、
前記メタデータは、前記ユーザへの提示のためのコンテンツアイテムへの前記セグメントの合成を可能にすることを特徴とするメディアコンテンツデータ。