JP5054653B2 - 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 - Google Patents

視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Download PDF

Info

Publication number
JP5054653B2
JP5054653B2 JP2008262134A JP2008262134A JP5054653B2 JP 5054653 B2 JP5054653 B2 JP 5054653B2 JP 2008262134 A JP2008262134 A JP 2008262134A JP 2008262134 A JP2008262134 A JP 2008262134A JP 5054653 B2 JP5054653 B2 JP 5054653B2
Authority
JP
Japan
Prior art keywords
impression
section
event
viewing
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008262134A
Other languages
English (en)
Other versions
JP2010093584A (ja
Inventor
豪 入江
浩太 日高
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008262134A priority Critical patent/JP5054653B2/ja
Publication of JP2010093584A publication Critical patent/JP2010093584A/ja
Application granted granted Critical
Publication of JP5054653B2 publication Critical patent/JP5054653B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に係り、特に、視聴者がマルチメディア(映像・音声)視聴した時に、どのような印象を与えるかを示す視聴印象レベルを推定するための視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体に関する。
現在、マルチメディアとしての映像・音声の数が増大しており、映像を効率的に探し出し、視聴する手段が求められている。
効率的な探索、視聴手段を提供するための基本的なアプローチは、映像・音声の内容を説明する何らかの情報を抽出し、この情報をメタデータとして付与するものである。メタデータの例として最も簡単なものには、映像・音声のタイトルやジャンル、あらすじなどがある。また、最近では、インターネット上の映像・音声配信サイトを中心に、映像・音声の内容を簡潔に説明する単語を代表とするメタデータ(タグとも呼ばれる)を、視聴者が付与できるようにした技術が利用されている。
しかしながら、これらは、少なくとも1人の視聴者が、当該映像・音声を視聴していない限り付与されるものではなく、また、限られた視聴者の意見のみを反映したものとなるため、多くの視聴者にとって有益な意味を持つものとなるかどうかが不明な点で利用しにくい場面が多いことが知られている。
一方、最近研究開発が進められている方法として、映像・音声中に生起しているイベントを、映像・音声から自動抽出し、これをメタデータとするメタデータ自動生成技術も注目されている。
例えば、映像・音声中の強調された発話の存在区間をメタデータとして提供するために、音声データを解析し、基本周波数、パワー、動的特徴量の時間変動特性の少なくとも1つ及びそれらの分析窓間差分、その時間変動特性の少なくとも1つまたはそれらの分析窓間差分を音声特徴量ベクトルとして抽出する。その抽出された音声特徴量ベクトルを量子化して得た代表ベクトルと、発話の強調状態確率、平静状態確率を対応付けた符号帳を用いて、強調状態にある発話、平静状態にある発話の生起確率を求める技術がある(例えば、特許文献1参照)。
また、顔の存在する区間をメタデータとして提供するために、画像データの局所的な空間周波数フィルタリングを用いた顔/非顔判定によって、画像中の顔が撮影されている区間を検出する技術がある(例えば、特許文献2参照)。
また、移動物体の有無をメタデータとして提供するために、背景画像のみのデータを保持しておき、時系列データから移動物体が存在する領域を、画素値の比較によって抽出する技術がある(例えば、特許文献3参照)。
また、撮影対象がアップで撮影されている区間をメタデータとして提供するために、映像中に動きがある場合に、その動きがカメラワークによる動きであるかないかを判定することで、移動物体がアップで撮影されているショットを検出する技術がある(例えば、特許文献4参照)。
また、多様なカット点やカメラワークの際に現われる、特徴的な輝度値に時間・空間的変化を用いて、映像のカット点、カメラワークを検出する技術がある(例えば、特許文献5参照)。
一方で、視聴者が視聴する映像・音声を探す場合を想定すると、上記のメタデータ自動生成技術が対象とするような、どのようなイベントが生起しているのか、というような内容に関する情報と同時に、例えば、楽しい映像・音声が見たい、哀しい、泣ける映像・音声がみたい、などといったように、視聴したいと思う印象を重視して探すことが多い。したがって、映像・音声がどのような印象を与えるものであるのか、という印象をメタデータとして自動生成できる技術が視聴者にとっては有益であることが想定される。
また、デジタルコンテンツに付与される効果(効果音やエフェクト)が視聴者に与える印象を評価する技術がある(例えば、特許文献6参照)。
特許第3803311号公報 特開2006−293720号公報 特開2004−178243号公報 特開2006−244074号公報 特開2005−345496号公報 特開2007−156978号公報
しかしながら、前述の通り、上記従来技術は、映像・音声に起こるイベントを検出しているものであって、視聴時にどのような印象を与えるかを推定できないという問題があった。
また、デジタルコンテンツに付与される効果が視聴者に与える印象を評価する技術も、各エフェクトの種類により、視聴者がどのような印象を受けるのかが評価されているのみであり、エフェクト出現順序が視聴者の印象に与える影響や、視聴者の心理状況を考慮することはできなかった。
本発明は、上記の点に鑑みなされたもので、多様なイベントの生起と、それらイベントの生起によって決定付けられる視聴時の印象の関係を捉えることのできる視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体を提供することを目的とする。
図1は、本発明の原理構成図である。
本発明(請求項1)は、映像・音声中に含まれるイベントに基づいて、映像・音声視聴時の視聴印象を推定する視聴印象推定装置であって、
映像・音声中の1つ以上の区間に対する時刻情報と、少なくとも1つのイベントの生起確率を含むイベントデータを入力として取得し、記憶手段85に格納するイベントデータ入力手段83と、
イベントデータを記憶手段85から読み出して、第1の区間の1つ以上のイベントの生起状態と、該第1の区間より1時間以上前の第2の区間の印象と、該第1の区間の印象と、を関連付ける主観印象モデルと、該第1の区間におけるイベントの生起状態と第1の区間における画像・音響特徴量を関連付けるモデルに基づいて、区間に対する印象レベルを計算し、出力する印象レベル計算処理手段84と、を有する。
また、本発明(請求項2)は、印象レベル計算処理手段84において、
さらに、主観印象モデルによる第1の区間のイベントの生起確率の期待値を求め、該期待値と、第1の区間におけるイベントの生起状態と第1の区間における画像・音響特徴量を関連付けるモデルの確率を積算することによって、区間に対する印象レベルを計算し、出力する手段を含む
図2は、本発明の原理を説明するための図である。
本発明(請求項3)は、映像・音声中に含まれるイベントに基づいて、映像・音声視聴時の視聴印象を推定する視聴印象推定方法であって、
イベントデータ入力手段が、映像・音声中の1つ以上の区間に対する時刻情報と、少なくとも1つのイベントの生起確率を含むイベントデータを入力として取得し、記憶手段に格納するイベントデータ入力ステップ(ステップ1)と、
印象レベル計算処理手段が、イベントデータを記憶手段から読み出して、第1の区間の1つ以上のイベントの生起状態と、該第1の区間より1時間以上前の第2の区間の印象と、該第1の区間の印象と、を関連付ける主観印象モデルと、該第1の区間におけるイベントの生起状態と第1の区間における画像・音響特徴量を関連付けるモデルに基づいて、区間に対する印象レベルを計算し、出力する印象レベル計算ステップ(ステップ2)と、を行う。
また、本発明(請求項4)は、印象レベル計算ステップ(ステップ2)において、
さらに、主観印象モデルによる第1の区間のイベントの生起確率の期待値を求め、該期待値と、第1の区間におけるイベントの生起状態と第1の区間における画像・音響特徴量を関連付けるモデルの確率を積算することによって、区間に対する印象レベルを計算し、出力する。
本発明(請求項5)は、請求項1または2記載の視聴印象推定装置を構成する各手段としてコンピュータを機能させるための視聴印象推定プログラムである。
本発明(請求項6)は、請求項5記載の視聴印象推定プログラムを格納したコンピュータ読み取り可能な記録媒体である。
上記のように、本発明によれば、事前に映像・音声を視聴することなく、その映像・音声がどのような印象の映像・音声であるかを、映像・音声全体、あるいは所定の区間を単位として知ることが可能となり、映像・音声の印象の即時的な把握を支援することができる。
また、印象レベルの計算を、人間(視聴者)の主観印象の変化特定を捉えた主観印象モデルを用いることで、印象の推定精度を高め、映像・音声の印象の即時的な把握を支援することができる。
以下、図面と共に本発明の実施の形態を説明する。
図3は、本発明の一実施の形態における視聴印象レベル推定装置の構成図である。
同図に示す視聴印象レベル推定装置80は、イベントデータ入力部83、印象レベル計算部84、記憶装置85から構成され、入力部87、出力部88に接続されている。
入力部87は、例えば、マウスなどのポインティングデバイス、キーボード等によって構成されるものであり、本実施の形態では、視聴者から要求を入力する際の操作インタフェースとして利用する。
出力部88は、例えば、液晶画面などのモニタ画面を有し、入力部87の操作、あるいは、視聴印象レベル推定装置80の処理に応じて情報を提示することができるものとする。ここには、例えば、入力データ、処理結果、処理結果を始め、各種情報が出力表示される。
以下、当該視聴印象レベル推定装置80について詳細に説明する。
まず、視聴印象レベル推定装置80の記憶装置85は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、ハードディスク装置を少なくとも備え、また、必要に応じてCD(Compact Disk)、DVD(Digital Versatile Disk)などの光ディスクドライブ装置を含むものとする。記憶装置85は、例えば、本発明による視聴印象レベル推定装置を、汎用のPC(Personal Computer)に組み込んで利用する場合など、上記の記憶装置85が外部のそれを以って代用できる場合には、当該装置構成に含まなくてもよい。
記憶装置85として用いられるハードディスク装置には、プログラムやデータ、イベントデータ入力部83が利用する統計モデルや、印象レベル計算部84が利用する主観印象モデルなどが記憶されているものとする。また、このほか、外部からディジタル信号として入力された映像・音声データが一時格納される。
記憶装置85として用いられるROMは、CPUを起動するためのプログラム、その他のプログラム及び制御用のパラメータ等を記憶する。また、RAMは動作に要するプログラムやデータ等を随時、一時的に記憶する。
イベントデータ入力部83には、映像・音声データ中の区間を表す開始時刻、終了時刻と当該区間に生起している各イベントの生起確率からなるイベントデータが入力され、記憶装置85に格納する。
印象レベル計算部84は、イベントデータ入力部83に入力されたイベントデータに基づいて、予め構築し、記憶装置85に記憶しておいた主観印象モデルを用いて、入力された映像・音声データの印象レベルを計算し、印象レベルデータとして出力する。
次に、本発明の動作について説明する。
図4は、本発明の一実施の形態における処理概要のフローチャートである。
本発明の視聴印象レベル推定方法は、大別して2つのステップからなる。
ステップ10)イベントデータ入力:
入力部87が、映像・音声データ中の区間を表す開始時刻、終了時刻と、当該区間に生起している各イベントの生起確率からなるイベントデータの入力を受け付ける。入力部87は、受け付けたイベントデータをイベントデータ入力部83に渡す。これにより、イベントデータ入力部83は、イベントデータを記憶装置85に格納される。
ステップ20)印象レベル計算処理:
印象レベル計算部84は、ステップ10でイベントデータ入力部83が受け取り、記憶装置85に格納されているイベントデータと、後述する方法によって予め定めた主観印象モデルに基づいて、当該映像・音声データを視聴した際にどのような印象をどの程度受けるかを表す印象レベルの計算を行い、結果を印象レベルデータとして出力する。
以下に、各ステップを詳細に説明する。
≪ステップ10:イベントデータ入力≫
入力部87が、映像・音声データ中の区間を表す開始時刻、終了時刻と、当該区間に生起している各イベントの生起確率からなるイベントデータの入力を受け付け、イベントデータをイベントデータ入力部83に受け渡す。
ここでいう「イベント」とは、映像・音声中の事象のことであり、例えば、"カット点"、"カメラワーク"、"顔"、"移動物体"、"アップショット"、"強調発話"、"笑顔"、"怒り顔"、"泣き顔"、"発話"、"笑い声"、"泣き声"、"叫び声"、"悲鳴"、"ささやき"、"穏やかな音楽"、"寂しい音楽"、"激しい音楽"、"壮大な音楽"、"騒音"、"爆発音"、"効果音"、等がその一例として挙げられる。
これらのイベントの生起確率を決定するにあたり、例えば、人間が予め視聴し、判断することによって決定しておくものとしてもよいし、公知のイベント検出法によって、自動的に判定するものとしてもよい。
人間が判断する場合には、生起していると判断した場合が生起確率"1"、していないと判定した場合が生起確率"0"となるように、各区間の生起確率を作成する。
公知のイベント検出法によって自動的に判定する場合には、例えば、"カット点"、"カメラワーク"については、文献「谷口行信、阿久津明人、外村佳伸、Panorama Excerpts:パノラマ画像の自動生成・レイアウトによる映像一覧、電子情報通信学会論文誌、D-II, vol. J82-D-II, No.3, pp.390-398, 1999.」の方法によって自動検出するものとしてもよいし、"移動物体"については、前述の特許文献3の方法、"アップショット"については、前述の特許文献4の方法、"顔"については、前述の特許文献2の方法が利用できる。
"強調発話"については、前述の特許文献1の方法、"笑い声"、"泣き声"、"叫び声"、"悲鳴"、"ささやき"、"穏やかな音楽"、"寂しい音楽"、"激しい音楽"、"壮大な音楽"、"騒音"、"爆発音"、"効果音"などについては、前述の特許文献5の方法などを用いることが可能である。
このような方法のうち、最終的な出力が2値、すなわち、生起しているか否かを判定するものについては、イベントが生起していると判定された場合の生起確率が"1"、していないと判定された場合の生起確率が"0"となるように、公知のイベント検出法の出力結果を変換する。
以降、本実施の形態の一例として、イベントとして"カット点(CT)"、"カメラワーク(CW)"、"強調発話(HS)"、"笑い声(LA)"、"泣き声(CR)"、"寂しい音楽(CM)"、"激しい音楽(AM)"の7つのイベントを取り扱う場合について説明するものとする。
図5は、本発明の一実施の形態におけるイベントデータの一例である。
この例では、区間の時刻情報として各区間の開始点と終了点を記憶装置85に格納しており、区間の時間は、15秒と固定長と定めた場合を示しているが、必ずしも15秒でなくともよく、5秒、30秒、60秒などとしてもよい。また、固定長ではなく、例えば、連続する発話の切れ目や音楽の切れ目などを用いて区間を定める方法、例えば、特許文献1に開示されている方法などの、自動で映像・音声データの区間を分割する方法を利用して定めてもよい。
この例では、各々のイベントは独立に生起すると仮定し、各々のイベント生起確率を記載しているが、2つ以上のイベントの共起に着目する必要がある場合、例えば、CTとCWの間が独立でない、無相関でない場合などには、"CTとCW"の生起確率を新たに導入するとしてもよい。
以上、ステップ10のイベントデータの入力の詳細について述べた。
≪ステップ20:印象レベル計算処理≫
ステップ20は、印象レベル計算部84が、イベントデータ入力部83が受け取ったイベントデータに基づいて、予め構築し、記憶装置85に記憶しておいた主観印象モデルを用いて入力された映像・音声データの印象レベルを計算し、印象レベルデータとして出力する。
取り扱う印象の種類としては、例えば、"楽しい"、"哀しい"、"エキサイティング"、"怖い"、"カッコイイ"、"かわいい"、"綺麗"、"不気味"、"優しい"、"面白い"、"つまらない"、"質が高い"など、映像を視聴する際に感じる一般的な印象のうち、任意のものを対象としてよい。
ここに挙げた印象の例は、これら全て用いるものとしてもよいし、任意のものを任意の数だけ選定してもよい。また、上記の例以外にも多数の印象が存在することは言うまでもなく、これらを新たに選定するものとしてもよい。
以降、本実施の形態では、"楽しい"、"哀しい"、"エキサイティング"、"怖い"の4種を取り扱う印象とした場合について説明することとし、これら4種の印象の集合をIMPと表す。
ここで、ステップ20の処理の詳細を説明する前に、ステップ20において、使用する主観印象モデルの生成の仕方について説明する。
主観印象モデルは、ある区間sにおける、イベントの生起状態(各々のイベントが生起している状態であるか否か)を表すeと、ある区間sの直前の時間区間である1つ前の区間s−1の印象を表すベクトルis−1が与えられたときに、ある区間sの印象を表すベクトルiとの関係を表す確率モデルp(i│is−1,e)とする。
これは、ある区間sの印象は次の2つの要因によって決定されると仮定することを意味する。
1) 区間sのイベントの有無、回数;
2) 区間s−1の印象;
この主観印象モデルは、視聴者が新たな区間sで視聴することとなるイベントの影響だけでなく、その直前までに受けていた印象を引きずるという、人間の自然な主観的印象のダイナミクスを表現しているため、精度の高い視聴印象推定を実現できる。
また、この際、eは、例えば、その前後es−1,es+1を加えた(es−1,e,es+1)を新たなeとして定義してもよい。こうすることによって、イベント生起の前後関係を含めたパターンを考慮することができる。
例えば、es−1では、強調発話(HS)の生起確率が相対的に高く、e,es+1では笑い声(LA)の生起確率が高かった場合、es−1で笑いを誘う楽しい発言がされたため、その後、笑い声が起こったことが想定され、(es−1,e,es+1)は楽しい印象である可能性が高いと言った、より合理的な推論が実行できる。
主観印象モデルの学習方法の一例を説明する。なお、ベクトルeのとりうる値の集合をEVEと表すものとする。
主観印象モデルの学習は、区間s(s∈{1,2,…,S})のそれぞれに対して、各イベントが生起しているか否かを表すイベントラベル{le}(le∈EVE)と印象ラベル{li}(li∈IMP)が予め与えられている学習データに基づいて行う。
学習データのイベントラベルは、予め、各区間に当該イベントが生起しているか否かを人手により判断してイベントが生起している区間には"1"、イベントが生起していない区間には"0"を付与すればよい。
また、学習データの印象ラベルは、イベントラベルが{le}となる映像・音声(またはその区間)を視聴した際に、視聴者がどのような印象を受けるかを実験的に調査して算出した結果を人手により付与する。この際、印象は、視聴者が受けた印象を回答する自己申告によって調査してもよいし、発汗センサ、fMRI(functional Magnetic Reconance Imageing)などの生体センサを利用して調査してもよい。
学習データからis−1=lis−1,e=leであるときの、i=liとなる回数を、全ての区間s=2,…,Sに渡ってカウントし、その回数をc(i=li│is−1=lis−1,e=le)とする。
このとき、
Figure 0005054653
として確率を決定することができる。
図6は、本発明の一実施の形態における学習データの一例を説明するための図である。この例では、イベントラベルはイベントが生起している場合を"1"、していない場合を"0"として付与している。
印象ラベルも0、1の2値を捕るものとしているが、これは例えば、視聴者全体のうち、半分以上の視聴者(例えば、10人中5人以上)がその印象を受けたと回答した場合を"1"、そうでない場合を"0"として付与する。
この例の場合に、上記の式(1)に基づいて、主観印象モデルの学習を実施する方法を説明する。ここでは、区間の時刻情報のうち、開始点をst、終点をenと表し、更に、開始点st、終了点enのセグメント(区間)を、S(st,en)と表す。
まず、S(0,0,15.0)のセグメントに着目すると、es=(1,0,1,0,0,0,1)と表すことができる。また、is−1は表に存在しないため、ここでは全ての要素は0であると考える。すると、
c(i="楽しい"│is−1,e)=0.0
c(i="哀しい"│is−1,e)=0.0
c(i="エキサイティング"│is−1,e)=0.0
c(i="怖い"│is−1,e)=0.0
c(i="楽しい"│is−1,e)=1.0
と,なり、上記の式(1)の
p(i│"哀しい"│is−1,e)=0.0
p(i│"エキサイティング"│is−1,e)=0.0
p(i│"怖い"│is−1,e)=1.0
となる。
S(15.0,30.0)及びS(45.0,60.0)は、e=(0,1,0,1,0,0,0)かつ、is−1=(0,0,0,1)で、条件となる変数が共通している。よって、これらはまとめてc(i│is−1,e)を計算する必要がある。
従って、この例では、
c(i="楽しい"│is−1,e)=2
c(i="哀しい"│is−1,e)=0
c(i="エキサイティング"│is−1,es)=1
c(i="怖い"│is−1,e)=0
であるから、p(i│is−1,e)は、
p(i="楽しい"│is−1,e)=0.666…
p(i="哀しい"│is−1,e)=0.0
p(i="エキサイティング"│is−1,e)=0.333…
p(i="怖い"│is−1,e)=0.0
となる。
同様の処理を繰り返し、全ての学習データを用いて計算を実施する。
つまり、eとis−1が等しい値を持つSを学習パターンから抽出して、抽出されたSを用いてC(i│is−1,e)を算出する、という処理を、eとis−1が異なる全てのパターンに対して実施することにより、主観印象モデルp(i│i,e)を作成する。
以上が、主観印象モデルp(i│i,e)の学習方法である。
次に、ステップ20の処理を詳細に説明する。
ステップ20では、記憶装置85から読み出した、イベントデータと主観印象モデルp(i│i,e)とに基づいて、各区間の印象レベルを計算する。
まず、各区間sのイベントデータに格納されているイベント生起確率p(e)を参照し、以下の式に従ってp(i)を逐次計算する。
Figure 0005054653
これを印象i∈IMPに対して計算した結果を、区間sの印象レベルとする。
しかしながら、上記の計算式は、ある区間のイベントeと一つ前の区間のイベントes−1に因果関係が存在する場合、成り立たないという問題がある。
このような場合には、その区間での任意の画像・音響特徴量xと、当該区間のイベントeとの間に、ある確率p(x│e)が確率モデルとして得ることによって、以下の2つの式を用いて逐次計算することができる。
Figure 0005054653
以上の処理を全ての区間sに対して行うことによって、全区間の印象レベルを計算することが可能であるので、これを実行した結果を、例えば、図7に示すような印象レベルリストとして出力する。
また、この後処理として、例えば、対象とする映像・音声に予め印象に係るメタデータが付与されている場合には、これを考慮して、印象レベルを調整するものとしてもよい。
例えば、対象の映像・音声に、「楽しい」というメタデータが予め事前情報として付与されていたとする。このとき、普遍的に楽しい印象を与え易い映像・音声であると判断し、楽しい印象レベルの値に一定の値、例えば、2を乗じるものとしてもよい。
また、上記の例では、区間s毎に印象レベルp(i)が計算されているが、これを基に映像・音声全体の印象を推定するものとしてもよい。
単純な例としては、映画などのストリー性の高い映像・音声においては、ある程度一般的な文法のような構造があり、例えば、泣ける映画の場合には、映像・音声の末尾に近い部分で泣ける印象のシーンが現われ、コメディである場合には、映像・音声の随所に楽しい印象のシーンが現われるというような特徴が見られる。
このような特徴と、映像・音声全体に見える区間の印象レベルの推移(分布)を利用して、対象の映像・音声の印象を推定する。
例えば、映像・音声全体の末尾部分に"泣ける"、もしくは、"哀しい"などの印象レベルの高い区間が多く分布している場合には、当該映像・音声は泣ける、もしくは哀しいストリーの映像・音声であるとして、「泣ける」、「哀しい」、あるいは、「最後は泣ける」などのような印象を付与する。
また、映像・音声全体の各所に楽しい印象レベルの高い区間が散在している場合には、当該映像・音声は楽しい印象の映像・音声であるとして、楽しい印象を付与する。
これらの分類は、映像・音声全体の各印象の数と、少なくとも同数のルールを、予め準備しておくことによって実施できる。
このルールは、例えば、「泣ける」、「哀しい」については、『泣ける、もしくは哀しい、の印象レベルにある一定の閾値以上の値を持つ区間の数が、当該映像・音声全体の区間オ50%以上を、末尾20%の時間に含むものを"泣ける"、"哀しい"印象の映像・音声であるとみなす」といったものや、楽しいについては、『楽しい印象レベルにある一定の閾値以上の値を持つ区間が、当該映像・音声を10分割した、いずれの区間にも含まれている』などといったものとして設定する。
ここでは、「泣ける」、「哀しい」、「楽しい」、の例について述べたが、これら以外の印象の推定についても、同様の知見を用いたルールの設定によって実行することが可能である。
以上、ステップ20の詳細について述べた。
以下、上記の実施の形態で示した動作を具体的に説明する。
[第1の実施例]
本実施例では、視聴印象に基づく映像・音声要約の生成について説明する。
ステップ20で求めた全ての区間の印象レベルに基づいて、視聴者の要求に最も適した印象の区間を選定し、当該区間を出力する。
区間を選定する方法の一例について説明する。
以上のステップ20までの処理によって、区間には、ステップ10のイベントデータから取得した開始点、終了点、及び、ステップ20において算出された印象レベルが情報として付与できる。
要約を生成するためには、要約に採用する区間の優先順位を決定する必要がある。本実施例では、この優先順位を記述した優先順位リストを作成する。
優先順位リストは、記憶装置85に格納されている図7の印象レベルリストLSを基に、各印象別に印象レベルについて降順にソートすることで生成する。従って、優先順位リストを生成するには、ソート機能を持つソフトウェア、または、装置があればよく、汎用のコンピュータを利用することで実現できる。
例えば、楽しい印象について、優先順位リストを生成した場合の一例を図8に示す。この例では、楽しい印象の印象レベルについて、降順にソートされているが、その他の印象についての優先順位リストも同様に生成すればよい。
優先順位リストが生成された時点で、視聴者から、利用者の求める印象、または、印象と希望視聴時間を要求として受け付け、この要求に則した区間を提示する。要求のうち、印象については、予め定めた優先順位リストに含まれる印象の中から適合するものを印象語として選択してもらうものとすればよい。
希望視聴時間は、直接数値で入力してもらうものとしてもよいし、例えば、15秒、30秒、45秒、…といった量子化された時間のリストから選択してもらうものとしてもよい。
希望視聴時間を視聴者が要求しない場合には、予め定めた時間をもって、希望視聴時間に代えればよい。
希望視聴時間は、必ずしも時間でなくともよく、例えば、映像・音声全体の時間長に対する割合によって定めてもよい。
たとえば、全体の時間長の10%と入力された場合、映像・音声全体の全時間長が60分であるときには60(分)×0.1=6(分)であるから、これを希望視聴時間とすることができる。
提示する区間は、要求された印象の優先順位リストに基づいて決定する。
具体的には、優先順位リストの降順に提示する区間を選択していき、これを希望視聴時間に対して、提示する区間の累積時間が最も近付くまで繰り返す。
例えば、利用者が楽しい印象の部分映像・音声を視聴したいと要求した場合の一例を図8を用いて説明する。
例えば、視聴者の要求が、楽しい印象について希望視聴時間が30秒であった場合、図8の優先順位リストの例では、区間BAとBB合計30秒分が出力される。
また、90秒であった場合、区間BA、BB,BC合計90秒分が出力される。この際、提示する区間は、時系列順に並べ替え直して出力するものとしてもよい。
[第2の実施例]
本実施例では、視聴印象に基づく映像・音声の検索について説明する。
従来の映像・音声の検索技術では、例えば、特開2002−245051号公報、特開2006−60796号公報に記載の動画像検索方法に開示されているように、映像のセグメントや、代表画像の特徴量の類似度STに基づいてスコアを計算し、このスコア順にランキングした結果を提示するものが多い。しかしながら、このような手法では、映像・音声の印象に基づいて検索することはできない。
そこで、前述の印象レベルリストを用いることによって類似度STのみによってではなく、更に所望の印象レベルの高いものを優先的に提示することで、有益な映像・音声検索技術を提供できる。
この利用例では、印象レベルは、区間毎ではなく、映像・音声全体の印象レベルを決定しておく必要があるが、前述のようなルールに基づく方法によって実現してもよいし、あるいは、単純には平均値や最大値などの統計量を求め、この線形、非線形演算によって決定してもよい。
処理方法の一例としては、例えば、特開2002−245051号公報、特開2006−60796号公報の技術等によって、類似度STでランキングされた映像・音声を、所定の区分、例えば(1位から順に、30位毎に1区分を構成するなど)に分割し、区分毎に視聴者の所望の印象レベルが、高い順にソートしなおすものとしてもよい。あるいは、特開2002−245051号公報、特開2006−60796号公報の技術等によって計算された類似度STと、印象レベルから新たなスコアSCを計算し、これに基づいてランキングを再構成してソートするものとしてもよい。この方法の一例としては、例えば、線形関数を用いて、
SC=Ψ×ST+Φ×"所望の印象レベル"
などと計算すればよい。
このとき、Ψ、Φはそれぞれ、任意の定数であり、例えば、Ψ=0.5,Φ=0.5などとすればよい。
また、必ずしも線形関数を利用する必要はなく、非線形関数など、任意のものを用いても構わない。好ましくは、ST、印象レベルに対して単調増加する関数を用いる。
図9に示す例では、8つのコンテンツについて、ST,印象レベル、Ψ=0.5、Φ=0.5としたスコアが計算されている。視聴者は楽しい印象の映像・音声を所望しているとする。同図の左側の表は、類似度に対して降順にランキングした従来の手法による結果である。この例では、印象「楽しい」に対する印象レベルの低いものがランキング上位に現われており、楽しい印象の映像・音楽を視聴したいと考える利用者の意図を満足する結果とはならない。同図右側は、類似度、印象「楽しい」に対する印象レベル双方を考慮したスコアによってランキングした結果である。この結果、類似度の高いものの中でも、楽しい印象レベルが高いものが上位に現われており、の視聴者の意図を満足する結果となっている。
また、同様に、それまでに利用者が視聴した映像・音声に類似する、全く新しい映像・音声を推薦する映像・音声推薦技術がある。この場合も、全く同様の処理方法で、類似度が高く、視聴者の所望する印象の印象レベルがより高いものを推薦するといった利用が可能である。
なお、上記のイベントデータ入力部83、印象レベル計算部84における動作をプログラムとして構築し、視聴印象推定装置として利用されるコンピュータにインストールして実行させる、または、ネットワークを介して流通させることが可能である。
また、構築されたプログラムをハードディスク装置や、フレキシブルディスク、CD−ROM等の可搬記憶媒体に格納し、コンピュータにインストールする、または、配布することが可能である。
なお、本発明は、上記の実施の形態及び実施例に限定されることなく、特許請求の範囲内において種々変更・応用が可能である。
本発明は、マルチメディア映像・音声視聴における視聴者の視聴印象を推定する技術分野に適用可能である。
本発明の原理構成図である。 本発明の原理を説明するための図である。 本発明の一実施の形態における視聴印象指定装置の構成図である。 本発明の一実施の形態における処理概要のフローチャートである。 本発明の一実施の形態におけるイベントデータの一例を説明するための図である。 本発明の一実施の形態における学習データの一例を説明するための図である。 本発明の一実施の形態における印象レベルリストの一例を説明するための図である。 本発明の第1の実施例における楽しい印象に関する優先順位リストを説明するための図である。 本発明の第2の実施例における検索結果の一例である。
符号の説明
80 視聴印象推定装置
83 イベントデータ入力手段、イベントデータ入力部
84 印象レベル計算手段、印象レベル計算部
85 記憶手段、記憶装置
87 入力部
88 出力部

Claims (6)

  1. 映像・音声中に含まれるイベントに基づいて、映像・音声視聴時の視聴印象を推定する視聴印象推定装置であって、
    映像・音声中の1つ以上の区間に対する時刻情報と、少なくとも1つのイベントの生起確率を含むイベントデータを入力として取得し、記憶手段に格納するイベントデータ入力手段と、
    前記イベントデータを前記記憶手段から読み出して、第1の区間の1つ以上のイベントの生起状態と、該第1の区間より1時間以上前の第2の区間の印象と、該第1の区間の印象と、を関連付ける主観印象モデルと、該第1の区間におけるイベントの生起状態と前記第1の区間における画像・音響特徴量を関連付けるモデルに基づいて、前記区間に対する印象レベルを計算し、出力する印象レベル計算処理手段と、
    を有することを特徴とする視聴印象推定装置。
  2. 前記印象レベル計算処理手段は、
    さらに、前記主観印象モデルによる第1の区間のイベントの生起確率の期待値を求め、該期待値と、前記第1の区間におけるイベントの生起状態と前記第1の区間における画像・音響特徴量を関連付けるモデルの確率を積算することによって、前記区間に対する印象レベルを計算し、出力する手段を含む
    請求項1記載の視聴印象推定装置。
  3. 映像・音声中に含まれるイベントに基づいて、映像・音声視聴時の視聴印象を推定する視聴印象推定方法であって、
    イベントデータ入力手段が、映像・音声中の1つ以上の区間に対する時刻情報と、少なくとも1つのイベントの生起確率を含むイベントデータを入力として取得し、記憶手段に格納するイベントデータ入力ステップと、
    印象レベル計算処理手段が、前記イベントデータを前記記憶手段から読み出して、第1の区間の1つ以上のイベントの生起状態と、該第1の区間より1時間以上前の第2の区間の印象と、該第1の区間の印象と、を関連付ける主観印象モデルと、該第1の区間におけるイベントの生起状態と前記第1の区間における画像・音響特徴量を関連付けるモデルに基づいて、前記区間に対する印象レベルを計算し、出力する印象レベル計算ステップと、
    を行うことを特徴とする視聴印象推定方法。
  4. 前記印象レベル計算ステップにおいて、
    さらに、前記主観印象モデルによる第1の区間のイベントの生起確率の期待値を求め、該期待値と、前記第1の区間におけるイベントの生起状態と前記第1の区間における画像・音響特徴量を関連付けるモデルの確率を積算することによって、前記区間に対する印象レベルを計算し、出力する
    請求項3記載の視聴印象推定方法。
  5. 請求項1または2記載の視聴印象推定装置を構成する手段としてコンピュータを機能させるための視聴印象推定プログラム。
  6. 請求項5記載の視聴印象推定プログラムを格納したことを特徴とするコンピュータ読取可能な記録媒体。
JP2008262134A 2008-10-08 2008-10-08 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体 Expired - Fee Related JP5054653B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008262134A JP5054653B2 (ja) 2008-10-08 2008-10-08 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008262134A JP5054653B2 (ja) 2008-10-08 2008-10-08 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Publications (2)

Publication Number Publication Date
JP2010093584A JP2010093584A (ja) 2010-04-22
JP5054653B2 true JP5054653B2 (ja) 2012-10-24

Family

ID=42255881

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008262134A Expired - Fee Related JP5054653B2 (ja) 2008-10-08 2008-10-08 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Country Status (1)

Country Link
JP (1) JP5054653B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7302256B2 (ja) * 2019-04-19 2023-07-04 富士通株式会社 ハイライト動画生成プログラム、ハイライト動画生成方法および情報処理装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3592194B2 (ja) * 2000-01-21 2004-11-24 株式会社リコー 映像内容説明文生成方法、映像内容説明文生成装置及び記録媒体
JP4580190B2 (ja) * 2004-05-31 2010-11-10 日本電信電話株式会社 音声処理装置、音声処理方法およびそのプログラム
EP2063416B1 (en) * 2006-09-13 2011-11-16 Nippon Telegraph And Telephone Corporation Feeling detection method, feeling detection device, feeling detection program containing the method, and recording medium containing the program
JP4891802B2 (ja) * 2007-02-20 2012-03-07 日本電信電話株式会社 コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム

Also Published As

Publication number Publication date
JP2010093584A (ja) 2010-04-22

Similar Documents

Publication Publication Date Title
JP4891802B2 (ja) コンテンツ検索・推薦方法、コンテンツ検索・推薦装置およびコンテンツ検索・推薦プログラム
JP6260979B1 (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
US10133818B2 (en) Estimating social interest in time-based media
JP5039045B2 (ja) 感情検出方法、感情検出装置、その方法を実装した感情検出プログラム及びそのプログラムを記録した記録媒体
JP4965322B2 (ja) ユーザ支援方法、ユーザ支援装置およびユーザ支援プログラム
Cohendet et al. VideoMem: Constructing, analyzing, predicting short-term and long-term video memorability
US8204317B2 (en) Method and device for automatic generation of summary of a plurality of images
TWI510064B (zh) 視訊推薦系統及其方法
TWI449410B (zh) Personalized Sorting Method of Internet Audio and Video Data
JP2005512233A (ja) 映像プログラムにおいて人物に関する情報を検索するためのシステムおよび方法
JP2006287319A (ja) 番組ダイジェスト作成装置および番組ダイジェスト作成プログラム
JP2018534700A (ja) メディアコンテンツのパフォーマンスの即時予測のための方法及び装置
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
JP2018206341A (ja) 事象評価支援システム、事象評価支援装置、及び事象評価支援プログラム
JP4812733B2 (ja) 情報編集装置、情報編集方法、情報編集プログラムおよびそのプログラムを記録した記録媒体
JP6486165B2 (ja) 候補キーワード評価装置及び候補キーワード評価プログラム
WO2020071216A1 (ja) 画像検索装置、画像検索方法及び画像検索用プログラム
CN113553423B (zh) 一种剧本信息处理方法、装置、电子设备及存储介质
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP4270119B2 (ja) 代表画像選定方法及び装置及びプログラム
JP5054653B2 (ja) 視聴印象推定方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体
WO2020096710A1 (en) Method for performing legal clearance review of digital content
TW202109388A (zh) 依據同目標求職者履歷產生履歷修改建議之系統及方法
JP4943370B2 (ja) コンテンツ視聴時の印象度推定方法及び装置及びプログラム及びコンピュータ読取可能な記録媒体
JP5054608B2 (ja) コンテンツ評価方法及び装置及びプログラム及びコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20101215

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20111222

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120305

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20120724

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20120727

R150 Certificate of patent or registration of utility model

Ref document number: 5054653

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20150803

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees