JP2010226547A - 映像処理装置および映像処理プログラム - Google Patents

映像処理装置および映像処理プログラム Download PDF

Info

Publication number
JP2010226547A
JP2010226547A JP2009073031A JP2009073031A JP2010226547A JP 2010226547 A JP2010226547 A JP 2010226547A JP 2009073031 A JP2009073031 A JP 2009073031A JP 2009073031 A JP2009073031 A JP 2009073031A JP 2010226547 A JP2010226547 A JP 2010226547A
Authority
JP
Japan
Prior art keywords
still image
video
image
video processing
reconstructed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2009073031A
Other languages
English (en)
Inventor
Kota Hidaka
浩太 日高
Akira Kojima
明 小島
Takeshi Irie
豪 入江
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009073031A priority Critical patent/JP2010226547A/ja
Publication of JP2010226547A publication Critical patent/JP2010226547A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

【課題】本発明は、ユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにする新たな映像処理技術の提供を目的とする。
【解決手段】映像の持つ画像特徴量や音響特徴量を検出対象として、映像を構成する各静止画について、検出結果が特徴量の程度を示す値となる値属性特徴量を含む特徴量を検出する。続いて、検出した特徴量を用いて、映像を構成する各静止画に対して優先順位を付与する。続いて、付与した優先順位に基づいて、入力映像を構成する静止画の中から重要な静止画を選択して、それらの選択した静止画を1枚の静止画に再構成することで再構成静止画を生成して、それを出力装置に出力する。この構成に従って、ユーザは映像の中身を1枚の静止画によって理解することができるようになることから、その映像を視聴することなく、その映像がどのようなものであるのかを把握することができるようになる。
【選択図】図1

Description

本発明は、映像を処理する映像処理装置と、その映像処理装置の実現に用いられる映像処理プログラムとに関し、特に、ユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにする処理を実行する映像処理装置と、その映像処理装置の実現に用いられる映像処理プログラムとに関する。
映像を視聴することなく、その映像がどのようなものであるのかが把握できると利便性が高い。
しかしながら、今のところ、そのような映像処理技術については実現されていないのが実情であり、現実には、ユーザが映像を短時間に視聴できるようにして、その視聴に基づいて、ユーザがどのような映像であるのかを把握するようにしているというのが実情である。
このときに用いられる映像の短時間化に関する発明として、例えば、下記の特許文献1には、音声の強調状態に着目し、映像および音声コンテンツを短時間に視聴できるようにする発明が提案されている。
また、下記の非特許文献1には、音声の笑い声に着目して、短時間化映像を生成する発明が提案されている。
また、下記の特許文献2には、動物体が大きく写っている映像区間(動物体アップフレーム)を作成できるようにする発明が示されており、ダイジェスト的な映像区間閲覧のためのインデックスをユーザに提供する手法が提案されている。
その他に、映像の短時間化を実現する発明に関係する発明として、下記の特許文献3には、映像のカット点の検出に関する発明が示されている。また、下記の特許文献4には、カメラワークの検出に関する発明が示されている。また、下記の特許文献5には、映像からパノラマ画像を合成することを実現する発明が示されている。
特許第3803311 号,日高浩太,水野理,中嶌信弥,「音声処理方法及びその方法を使用した装置及びそのプログラム」 特開2006-244074 ,鳥井陽介,紺谷精一,森本正志,「動物体アップフレーム検出方法及びプログラム及びプログラムを格納した記憶媒体及び動物体アップショット検出方法及び動物体アップフレームあるいはショット検出方法及びプログラム及びプログラムを格納した記憶媒体」 特許第2839132 号,谷口行信,外村佳伸,「映像カット点検出方法及び装置」 特許第3408117 号,谷口行信,阿久津明人,外村佳伸,「カメラ操作推定方法およびカメラ操作推定プログラムを記録した記録媒体」 特許第3325823 号,谷口行信,阿久津明人,外村佳伸,佐藤隆,「映像静止画表示方法及び装置並びに映像静止画表示プログラム格納記録媒体」
入江豪,日高浩太,宮下直也,佐藤隆,谷口行信,「個人撮影映像を対象とした映像速覧のための"笑い"シーン検出法」,映像情報メディア学会誌,vol.62, no.2, pp.227-233, 2008.
映像を視聴することなく、その映像がどのようなものであるのかが把握できると利便性が高い。
しかしながら、今のところ、そのような映像処理技術については実現されていないのが実情である。
確かに、ユーザがどのような映像であるのかを把握できるようにするために、特許文献1,2、非特許文献1に記載されるように、映像を短時間に視聴できるようにするための様々な手法が提案されている。
しかしながら、このような手法は映像を短時間に視聴できることになるという利便性はあるものの、視聴すること自体は必要であった。
これから、従来技術に従っていると、映像がどのようなものであるのかを把握するのに、ユーザに対してその映像の視聴を要求することになることから、ユーザに対して多大な負荷を強いるという問題があった。
本発明はかかる事情に着目してなされたもので、その目的とするところは、ユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにする新たな映像処理技術の提供を目的とする。
この目的を達成するために、本発明の映像処理装置は、(1)処理対象となる映像を入力する入力部と、(2)入力映像の持つ画像特徴量および/または音響特徴量を検出対象として、入力映像を構成する各静止画について、検出結果が特徴量の程度を示す値となる値属性特徴量を含む、それらの静止画の持つ1つ以上の特徴量を検出する検出部と、(3)検出部の検出した特徴量を用いて、入力映像を構成する各静止画に対して優先順位を付与する付与部と、(4)付与部の付与した優先順位に基づいて、入力映像を構成する静止画の中から1枚以上の重要な静止画を選択して、それらの選択した静止画を1枚の静止画に再構成することで再構成静止画を生成する再構成部と、(5)再構成部の生成した再構成静止画を出力装置に出力する出力部と、(6)検出部の検出した特徴量に基づいて、入力映像を構成する静止画の中から静止画として見づらいものとなる静止画を特定する特定部と、(7)特定部の特定した静止画に対して付与部が付与した優先順位を低いものに変更する変更部と、(8)入力映像を構成する静止画のカット点からの時間経過量を測定する測定部と、(9)測定部の測定した時間経過量に基づいて、検出部の検出した特徴量を補正する補正部とを備えるように構成する。
以上の各処理部はコンピュータプログラムでも実現できるものであり、このコンピュータプログラムは、適当なコンピュータ読み取り可能な記録媒体に記録して提供されたり、ネットワークを介して提供され、本発明を実施する際にインストールされてCPUなどの制御手段上で動作することにより本発明を実現することになる。
このように構成される本発明の映像処理装置では、処理対象となる映像を入力すると、入力映像の持つ画像特徴量や音響特徴量を検出対象として、入力映像を構成する各静止画について、検出結果が特徴量の程度を示す値となる値属性特徴量を含む、それらの静止画の持つ1つ以上の特徴量を検出する。
このとき、値属性特徴量として、少なくとも、入力映像の持つ音響データが示す強調状態の確率値とその音響データが示す感性状態の確率値のいずれか一方または双方を検出することがある。
さらに、1つまたは複数の値属性特徴量を検出することに加えて、検出結果が特徴量の有無となる1つまたは複数の有無属性特徴量を検出することがある。
ここで、値属性特徴量を検出するときに、検出した値属性特徴量をそのまま用いることもあるが、思いつきで撮影を開始することも見られることから、カット点(撮影開始)からの時間経過量が小さい静止画については、その時間経過量に基づいて、その検出した値属性特徴量を小さなものとなるように補正して用いるようにすることもある。
続いて、検出した特徴量を用いて、入力映像を構成する各静止画に対して優先順位を付与する。
このとき、有無属性特徴量と値属性特徴量という2種類の特徴量を検出するときにあって、優先順位の付与を簡単かつ適格に行うようにするために、最初に、有無属性特徴量の検出結果に基づいて、入力映像を構成する各静止画を優先順位順にグループ分けし、続いて、値属性特徴量に基づいて、そのグループ内における優先順位を決定することで、入力映像を構成する各静止画に対して優先順位を付与することがある。
また、カメラワークなどが生じている静止画については静止画として見づらいものとなることを考慮して、検出した特徴量に基づいて、入力映像を構成する静止画の中から静止画として見づらいものとなる静止画を特定して、その特定した静止画に対して付与した優先順位を低いものに変更することがある。
続いて、付与した優先順位に基づいて、入力映像を構成する静止画の中から1枚以上の重要な静止画を選択して、それらの選択した静止画を1枚の静止画に再構成することで再構成静止画を生成する。
例えば、ユーザとの対話処理や、出力装置の持つ出力領域の大きさの情報と入力映像の大きさの情報とに基づいて、複数の静止画で構成される再構成静止画を生成するのか1枚の静止画で構成される再構成静止画を生成するのかを決定し、その決定に基づいて、複数の静止画で構成される再構成静止画を生成することを決定する場合には、例えば、ユーザとの対話処理に従って、優先順位に応じて割り当てられた位置にそれらの静止画を配置するのか、時系列の順番に応じて割り当てられた位置にそれらの静止画を配置するのかを決定して、それらの決定に基づいて、重要な静止画として選択した静止画を、その決定した配置位置に、その決定した配置方法で配置することで、再構成静止画を生成する。
このとき、1枚の再構成静止画を生成するのではなくて、映像をより正確に把握できるようにするために、優先順位を持つ複数の再構成静止画を生成することがある。
続いて、生成した再構成静止画を出力装置に出力する。
このとき、優先順位を持つ複数の再構成静止画を生成するときには、出力装置からの出力要求に応答して、それらの再構成静止画をその優先順位順に出力する。
また、出力装置からズーム要求がある場合には、ユーザの要求に応えるために、出力装置に出力する再構成静止画の持つズーム要求のある画像部分をズームする形態で出力する。
また、出力装置に再構成静止画を出力するときに、演出効果を高めるために、その再構成静止画の持つ特定の画像部分へ向かう形態で、その再構成静止画の持つ複数の画像部分を逐次出力することがある。
本発明では、映像から1枚以上の重要な静止画群を選択し、それらを1枚の静止画に再構成して出力するように処理する。
これにより、本発明によれば、ユーザは映像の中身を1枚の静止画によって理解することができるようになることから、その映像を視聴することなく、その映像がどのようなものであるのかを把握することができるようになる。
本発明の映像処理装置の装置構成図である。 本発明の映像処理装置のハードウェア構成図である。 画像・音響特徴量記憶部のデータ構造の説明図である。 優先グループ種別判定部の判定する暫定優先グループの説明図である。 強調状態確率値や感性状態確率値に対しての重み付けの説明図である。 第2の素材データ記憶部のデータ構造の説明図である。 再構成静止画の説明図である。 再構成静止画の説明図である。 再構成静止画の説明図である。 再構成静止画の説明図である。 本発明の映像処理装置の実行するフローチャートである。 本発明の映像処理装置の実行するフローチャートである。
以下、実施の形態に従って本発明を詳細に説明する。
図1に、本発明を具備する映像処理装置1の装置構成の一例を図示する。
この図に示すように、本発明の映像処理装置1は、映像入力部100と、第1の素材データ記憶部101と、画像・音響特徴量検出部102と、画像・音響特徴量記憶部103と、優先グループ種別判定部104と、静止画優先順位付与部105と、素材データ記憶構造変更部106と、第2の素材データ記憶部107と、静止画再構成部108と、編集データ記憶部109と、再構成静止画出力部110とを備える。
ここで、図2に示すように、本発明の映像処理装置1は、ハードウェア構成的には、CPU1000と、バス2000と、バス2000を介してCPU1000に接続されるプログラムメモリ3000と、バス2000を介してCPU1000に接続されるデータメモリ4000と、バス2000を介してCPU1000に接続される通信インタフェース5000とから構成される。
この構成を採るときに、図1に示す映像入力部100、画像・音響特徴量検出部102、優先グループ種別判定部104、静止画優先順位付与部105、素材データ記憶構造変更部106、静止画再構成部108および再構成静止画出力部110についてはプログラムメモリ3000に記憶される。また、図1に示す第1の素材データ記憶部101、画像・音響特徴量記憶部103、第2の素材データ記憶部107および編集データ記憶部109についてはデータメモリ4000に記憶される。
また、通信インタフェース5000は、CPU1000の制御の下、インターネット上のサーバおよびインターネットサイトとの間で、通信ネットワークにより規定される通信プロトコルに従い通信を行う。通信プロトコルとしては、例えば、TCP/IP(Transmission Control Protocol/Internet Protocol) が使用される。
〔1〕各処理部について
〔1−1〕映像入力部100の処理
映像入力部100は、処理対象となる映像を入力して第1の素材データ記憶部101に格納する処理を実行する。
その際、通信インタフェース5000を用いてもよいが、ネットワークを介さずに映像を入力する場合には用いなくてもよい。処理対象となる映像は、1 枚以上の画像データが時系列に格納されているものであればよく、フォーマットを限定するものでもない。
この処理にあたって、映像入力部100は、入力した映像から音声情報を抽出する処理を行う。例えば、avi フォーマットであれば、visual/audio 情報が格納されており、映像からaudio 情報を抽出する。なお、本発明において、音声と言う場合、音声および音楽などの楽音を指すものとする。
〔1−2〕画像・音響特徴量検出部102の処理
画像・音響特徴量検出部102は、第1の素材データ記憶部101に格納される映像を処理対象として、その映像の各フレーム(各静止画)の持つ画像特徴量および音響特徴量を検出して画像・音響特徴量記憶部103に格納する処理を実行する。
画像・音響特徴量検出部102は、画像特徴量については、例えば、
・画(i) : 笑顔検出
・画(ii) : カット点検出
・画(iii) : カメラワーク検出
・画(iv) : アップショット検出
という4つの画像特徴量を検出する。
これらの画像特徴量の内、“画(i) ”の笑顔の検出については、例えば、特許第3098276 号に示される“表情認識装置”の発明に基づいて実施すればよい。ここで、この発明では、顔面全体にわたって筋肉の微少な動きを計測し、その時間的変化をパタン化し、そのパタンに基づいて、感情を表す表情の認識を行っている。
また、“画(ii)”のカット点の検出については、例えば、前述の特許文献3に示される発明に基づいて実施すればよい。
また、“画(iii) ”のカメラワークの検出については、例えば、前述の特許文献4に示される発明に基づいて実施すればよい。
また、“画(iv)”のアップショットの検出(動物体の検出)については、例えば、前述の特許文献2に示される発明に基づいて実施すればよい。
一方、画像・音響特徴量検出部102は、音響特徴量については、例えば、
・音(i) : 強調状態検出
・音(ii) : 感性状態検出
・音(iii) : 音楽区間検出
という3つの音響特徴量を検出する。
これらの音響特徴量の内、“音(i) ”の強調状態の検出については、例えば、前述の特許文献1に示される発明に基づいて実施すればよい。
この特許文献1に示される発明では、1つの区間(ラベル区間A)内のフレーム数をnとし、それぞれのフレームから得られる音声特徴量ベクトルのコードが時系列でC1,C2,C3,.....,Cn であるときに、そのラベル区間Aが音声の強調状態となる確率PAempをN-gram モデルに基づいて求めるようにしているので、このときに求められる強調状態の出現確率PAemp(音声小段落ごとの強調確率PSemp、平静確率PSnrmの比や差を用いることでもよい)を使って、音の強調状態の程度(強調状態の確率値と、その確率値を閾値と比較することで求められる強調状態であるのか否かという情報)を検出することが可能である。
また、“音(ii)”感性状態の検出については、例えば、前述の非特許文献1に示される発明に基づいて実施すればよい。
この非特許文献1に示される発明では、韻律特徴ベクトルxt と状態et (“笑い”か“笑い以外”の2値を取る)の関係を表現する音響モデルp(xt |et )と、状態et の遷移に関する特性を単純マルコフ過程の仮定の下に表現する遷移モデルp(et |et-1 )とに基づいて、時刻tまでの韻律特徴量ベクトルの時系列Xt ={xt,t-1,t-2,..... }を観測した下での状態et の出現確率p(et |Xt )を求めるようにしているので、このときに求められる笑い状態の出現確率p(et |Xt )を使って、感性状態の程度(感性状態の確率値と、その確率値を閾値と比較することで求められる感性状態であるのか否かという情報)を検出することが可能である。
また、“音(iii) ”の音楽区間の検出については、例えば、特許第3475317 号に示される“映像分類方法および装置”の発明に基づいて実施すればよい。
画像・音響特徴量検出部102は、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてを検出する必要はなく、何れか一つ以上を検出すればよいが、以下の説明では、説明の便宜上、これらのすべてを検出することを想定している。
〔1−3〕画像・音響特徴量記憶部103のデータ構造
図3に、画像・音響特徴量記憶部103のデータ構造の一例を図示する。
画像・音響特徴量記憶部103は、図3に示すように、処理対象の映像の各フレームについて、画像・音響特徴量検出部102の検出した“画(i) ”の検出結果の情報(笑顔の有無)と、“画(ii)”の検出結果の情報(カット点の有無)と、“画(iii) ”の検出結果の情報(カメラワークの有無)と、“画(iv)”の検出結果の情報(動物体の有無)と、“音(i) ”の検出結果の情報(強調状態であるのか否かということと、その強調状態の確率値)と、“音(ii)”の検出結果の情報(感性状態であるのか否かということと、その感性状態の確率値)と、“音(iii) ”の検出結果の情報(音楽区間の有無)とを記憶する。
さらに、これらの情報に加えて、画像・音響特徴量記憶部103は、図3に示すように、処理対象の映像の各フレームがどの暫定優先グループに属するのかという情報(優先グループ種別判定部104により格納されることになる情報)と、処理対象の映像の各フレームに付与される暫定優先グループ内の優先順位の情報(静止画優先順位付与部105により格納されることになる情報)とを記憶する。
〔1−4〕優先グループ種別判定部104の処理
優先グループ種別判定部104は、大枠の優先順位を示す暫定優先グループの区分けを設定して、画像・音響特徴量記憶部103に格納される画像・音響特徴量検出部102の検出した画像特徴量および音響特徴量に基づいて、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定して、その判定結果の情報を画像・音響特徴量記憶部103に格納する処理を実行する。
優先グループ種別判定部104は、例えば、図4に示すように、
(1)“画(i) ”、“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームを優 先順位が最上位の暫定グループである第1暫定優先グループとし、
(2)“画(i) ”、“画(iv)”の検出結果が有りとなったフレームをその次の優先順位 の暫定グループである第2暫定優先グループとし、
(3)“画(i) ”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第3暫定優先グループとし、
(4)“画(i) ”の検出結果が有りとなったフレームをその次の優先順位の暫定グルー プである第4暫定優先グループとし、
(5)“画(iv)”、“音(iii) ”の検出結果が有りとなったフレームをその次の優先順 位の暫定グループである第5暫定優先グループとし、
(6)“画(iv)”の検出結果が有りとなったフレームを優先順位が最下位の暫定グルー プである第6暫定優先グループ
として設定して、処理対象の映像の各フレームがどの暫定優先グループに属するのかを判定し、その判定結果の情報を画像・音響特徴量記憶部103に格納するのである。
〔1−5〕静止画優先順位付与部105の処理
静止画優先順位付与部105は、画像・音響特徴量記憶部103に格納される画像・音響特徴量検出部102の検出した“音(i) ”の強調状態確率値および/または“音(ii)”の感性状態確率値を用いて、各暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与して、その付与結果の情報を画像・音響特徴量記憶部103に格納する処理を実行する。
この優先順位の付与にあたって、強調状態確率値と感性状態確率値の両方を用いて優先順位を付与する場合には、2つの確率値の加算値を用いて優先順位を決定したり、2つの確率値の乗算値を用いて優先順位を決定するなどの処理を行うことになるが、その際に、笑い声をより優先したいとの理由から、例えば、“音(ii)”の感性状態確率値を2倍するなどのように重み付けを施してもよい。また、これとは逆に、強調音声を重要視して、“音(i) ”の強調状態確率値を大きくするような重み付けを施してもよい。
本発明では、映像から1枚以上の重要な静止画群(フレーム群)を選択して、それらの静止画を1枚の静止画に再構成することで、ユーザが映像を視聴することなく、その映像がどのようなものであるのかを把握できるようにすることを実現する。
これから、この優先順位の付与にあたって、静止画として見づらいフレームについては、優先順位を低くすることが望ましい。
そこで、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定されるので、“画(iii) ”によってカメラワークが生じていることが検出される画像(フレーム)については、優先順位を最低にするとか、優先順位をマイナスn(例えば、n=10などと設定しておく)にするなどの処理を施すようにしてもよい。
また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iv)”のアップショット検出により検出される動きベクトルの大きさに閾値を設定して、その閾値以上の動きを示す動物体を有する画像(フレーム)については、前述と同様に、優先順位を最低にするとか、優先順位をマイナスnにするなどの処理を施すようにしてもよい。
映像は時系列の画像群ではあるが、撮りはじめからよいシーンでないことも想定される。例えば、未編集のホームビデオなどでは、思いつきで撮影を開始することも多く見られる。
そこで、“音(i) ”の強調状態確率値や“音(ii)”の感性状態確率値の結果に対して、図5に示すような、カット点(撮影開始)からの時間に対する重み付けを施すようにしてもよい。
例えば、図5に示すパタン1では、次のカット点までの時刻に向かって重み付けが二次関数的に上昇していくものを示している。この場合に、重み付けが一次関数的に上昇していくものであってもよい。
また、図5に示すパタン2では、所定の時間tc になるまでは、重み付けが一次関数あるいは二次関数で上昇し、その後は一定値となるものを示している。ここで、tc は、例えば30秒などというように設定されることになる。
また、図5に示すパタン3では、次のカット点までの中間時刻で最大となるように、重み付けが一次関数あるいは二次関数で設定されるものを示している。
いずれのパタンを用いるのかについてはユーザが予め設定しておけばよく、この設定が行われない場合には、例えば、カメラワークがカット点直後にない場合にはパタン2を用い、カメラワークが頻出する場合にはパタン1を用いるというように、システム側で予め設定したパタンを用いることになる。
以上に説明した静止画優先順位付与部105の処理では、“画(i) ”、“画(ii)”、“画(iii) ”、“画(iv)”、“音(i) ”、“音(ii)”、“音(iii) ”のすべてが検出されている場合について説明したが、以上の説明から分かるように、最低でも音(i) 、音(ii)の内の1つが検出されていれば、静止画に対して優先順位を付与することは可能である.
〔1−6〕素材データ記憶構造変更部106の処理
素材データ記憶構造変更部106は、画像・音響特徴量記憶部103に格納される暫定優先グループ情報および優先順位情報に基づいて、第1の素材データ記憶部101に格納される映像のフレームを、暫定優先グループごとに優先順位の順番に従って並び替えて、図6に示すようなデータ構造を持つ第2の素材データ記憶部107に格納する処理を実行する。
〔1−7〕静止画再構成部108の処理
静止画再構成部108は、第2の素材データ記憶部107に格納される映像のフレームを処理対象として、それらのフレームの中から1枚以上の重要な静止画群(フレーム群)を選択し、それらの静止画を1枚の静止画に再構成して、それを編集データ記憶部109に格納する処理を実行する。
この重要な静止画群の選択にあたって、静止画再構成部108は、図6に示すようなデータ構造を持つ第2の素材データ記憶部107を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って静止画群を選択するように処理する。
このようにして1枚の静止画に再構成された静止画(再構成静止画)は、再構成静止画出力部110の処理に従って、編集データ記憶部109から読み出されて出力装置2に出力されることになる。
このときに用いられる出力装置2としては、例えば、デジタルフォトフレームやPCのディスプレイやテレビ画面などが想定される。また、プリンタであることもある。
次に、静止画再構成部108の実行する再構成静止画の生成方法について説明する。ここで、出力装置2の解像度がm×n(m:縦の解像度,n:横の解像度)で、第2の素材データ記憶部107から読み出すフレーム(静止画)の解像度がm’×n’(m’:縦の解像度,n’:横の解像度)であるとする。
静止画再構成部108は、
m’>m かつ、n’>n ・・・・ 式(1)
である場合には、最優先順位となる静止画をそのまま再構成静止画として出力装置2に表示すればよい。また、その静止画をそのまま再構成静止画としてプリンタから出力してもよい。以下、プリンタに静止画情報を送信することについても、本発明においては「表示する」と呼ぶこととする。
また、閾値thm, thnを設けて、
m’±thm >m かつ、n’±thn >n ・・・・ 式(2)
である場合には、同様に、最優先順位をなる静止画をそのまま再構成静止画として出力装置2に表示するようにしてもよい。ここで、thm とthn については、例えば、
thm = 0.3 ×m ,thn = 0.3 ×n
などというように予め設定しておけばよい。
なお、静止画再構成部108の生成する再構成静止画については、実際には、後述する再構成静止画出力部110が出力装置2に表示することになる。
式(1)および式(2)を満足しない場合には、図7〜図9に示すように、複数の画像によって静止画を再構成することで再構成静止画を生成する。
ここで、図9では、優先順位の順にどの表示域に配置するのかを決定するようにしているが、図9における時系列情報が、
優先順位3→優先順位2→優先順位1→優先順位4
である場合には、その時系列の順にどの表示域に配置するのかを決定することで、図10のように生成するようにしてもよい。
この再構成静止画の生成にあたって、第2の素材データ記憶部107から読み出す静止画の解像度や形状が再構成静止画の表示域と合わない場合には、静止画再構成部108は、その静止画を拡大したり縮小したり切り取ることなどにより表示域に合わせるという編集処理を行うことになる。
以上に説明した静止画再構成部108の処理では、式(1)や式(2)を満足する場合には、最優先順位となる静止画のみを配置することで再構成静止画を生成するという構成を採ったが、そのような構成を採らずに、優先順位の高い順番に従って所定の枚数の静止画を選択して、それらの静止画を縮小しつつ配置することで再構成静止画を生成するという構成を採るようにしてもよい。
また、以上に説明した静止画再構成部108の処理では、1枚のみの再構成静止画を生成することで説明したが、複数の再構成静止画を生成するようにしてもよい。その場合には、図7〜図10の何れかの再構成静止画を適宜、繰り返し優先順位を降順に生成していけばよく、そのようにして生成した複数の再構成静止画を編集データ記憶部109に格納することになる。
〔1−8〕再構成静止画出力部110の処理
再構成静止画出力部110は、編集データ記憶部109から静止画再構成部108の生成した再構成静止画を読み出して、出力装置2に表示する処理を実行する。
このとき、静止画再構成部108が複数の再構成静止画を生成する場合には、再構成静止画出力部110は、ユーザからの表示要求に応答して、それらの再構成静止画を優先順位順に順番に表示する。
また、この再構成静止画の表示にあたって、再構成静止画出力部110は、ユーザから再構成静止画上の領域を指定してズーム要求があると、その領域上の画像部分をズーム表示するように処理する。
このとき、ユーザに対して、静止画上の領域を指定させずにズーム要求を受け付けるという構成を採ることも可能であり、この場合には、その静止画上に存在する特徴点な画像部分をズーム表示するように処理することになる。例えば、“画(i) ”の笑顔検出により笑顔が検出された場合には、静止画上のどこにその笑顔が存在するのかが分かっているので、その笑顔の画像部分をズーム表示するように処理するのである。
また、この再構成静止画の表示にあたって、再構成静止画出力部110は、静止画上に存在する特徴点な画像部分に向かう複数の画像部分を切り出して、それらの画像部分を特徴点な画像部分に向けて順番に表示していくことで、その静止画に存在する特徴点な画像部分を表示する際の演出効果を高めるように処理することがある。
〔2〕本発明の映像処理装置1の実行する処理
図11および図12に、図1のように構成される本発明の映像処理装置1の実行するフローチャートを図示する。
次に、このフローチャートに従って、図1のように構成される本発明の映像処理装置1の実行する処理について詳細に説明する。
本発明の映像処理装置1は、ユーザから処理対象の映像を指定して再構成静止画の表示要求があると、図11および図12のフローチャートに示すように、まず最初に、ステップS100で、処理対象の映像を入力する。
続いて、ステップS101で、入力映像の全フレーム(全静止画)について処理を行ったのか否かを判断して、全フレームについて処理を行っていないことを判断するときには、ステップS102に進んで、先頭フレームからの順番に従って未処理のフレームを1つ選択する。
続いて、ステップS103で、選択したフレームの持つ画像特徴量および映像特徴量を検出する。
例えば、画像特徴量として、前述した“画(i) ”の笑顔検出、“画(ii)”のカット点検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出という4つの画像特徴量を検出するとともに、音響特徴量として、前述した“音(i) ”の強調状態検出、“音(ii)”の感性状態検出、“音(iii) ”の音楽区間検出という3つの音響特徴量を検出するのである。
続いて、ステップS104で、選択したフレームについてのカット点からの時間経過量を測定して(“画(ii)”のカット点検出によりカット点となったフレームが検出されているので、そのフレームからの時間経過量を測定する)、その測定した時間経過量に基づいて、ステップS103で検出した特徴量に含まれる値属性特徴量(検出結果が特徴量の程度を示す値となる特徴量)を補正する。
ステップS103で検出した特徴量に含まれる値属性特徴量としては、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの値属性特徴量があるので、これらの値属性特徴量を、例えば図5に示すパタン2の重み付け曲線に従って重み付けすることで、それらの値属性特徴量を補正するのである。
続いて、ステップS105で、ステップS103で検出した特徴量に含まれる有無属性特徴量(検出結果が特徴量の有無となる特徴量)に基づいて、選択したフレームが図4に示す6つの暫定優先グループの内のどの暫定優先グループに属するのかを判定して、ステップS101の処理に戻る。
ステップS103では、“画(ii)”のカット点検出を除いた有無属性特徴量として、“画(i) ”の笑顔検出、“画(iii) ”のカメラワーク検出、“画(iv)”のアップショット検出、“音(iii) ”の音楽区間検出という4つの有無属性特徴量を検出しているので、これらの有無属性特徴量の検出結果に基づいて、図4に示す判定基準に基づいて、選択したフレームがどの暫定優先グループに属するのかを判定して、ステップS101の処理に戻るのである。
このようにしてステップS102〜ステップS105の処理を繰り返すことで、入力映像の全フレームについて、画像特徴量および音響特徴量を検出・補正するとともに、どの暫定優先グループに属するのかを判定すると、ステップS101で、入力映像の全フレームについてこの処理を行ったことを判断することになるので、このことを判断するときには、ステップS106に進んで、検出した値属性特徴量に基づいて、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与する。
例えば、“音(i) ”の強調状態検出により検出される強調状態の確率値と、“音(ii)”の感性状態検出により検出される感性状態の確率値という2つの確率値の加算値を求めて、その加算値の大小を比較することで、暫定優先グループごとに、その暫定優先グループに属するフレームに対して優先順位を付与するのである。
続いて、ステップS107で、静止画として見づらいものとなるフレームを特定して、その特定したフレームの優先順位を低いものに変更する。
前述したように、カメラワークや手ブレなどが生じている画像については静止画として見づらいことが想定され、また、カメラワークが生じていなくても、被写体が動作することによって不鮮明な画像となる場合も想定される。そこで、“画(iii) ”のカメラワーク検出によってカメラワークが生じていることが検出されるフレームや、“画(iv)”のアップショット検出により大きな動きを示す動物体の存在が検出されるフレームについては、その優先順位を低いものに変更するのである。
続いて、ステップS108で、出力装置2の解像度とフレーム(静止画)の解像度とに基づいて、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定する。
例えば、出力装置2の解像度とフレームの解像度との間に、前述の式(1)や式(2)の関係が成立するのか否かを判断することで、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定したり、あるいは、複数の静止画を縮小して再構成静止画を生成するという構成を採る場合には、ユーザとの対話処理などに従って、再構成静止画を構成する静止画を1枚にするのかそれに以上の枚数にするのかを決定するのである。
続いて、ステップS109で、再構成静止画を構成する静止画を1枚にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置する1枚の静止画(フレーム)を選択し、また、再構成静止画を構成する静止画を所定の枚数にすることを決定する場合には、暫定優先グループの優先順位と暫定優先グループ内におけるフレームの優先順位とに基づいて、再構成静止画に配置するその所定の枚数の静止画(フレーム)を選択する。
すなわち、図6に示すようなデータ構造を持つ第2の素材データ記憶部107を参照して、第1暫定優先グループを最優先にして、その第1暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択し、このとき、第1暫定優先グループに必要な数の静止画が存在しない場合には、続いて、第2暫定優先グループに属する静止画の中から優先順位の高い順に静止画を選択するというように、暫定優先グループの優先順位とその暫定優先グループ内におけるフレームの優先順位とに従って、再構成静止画に配置する静止画を選択するのである。
続いて、ステップS110で、ユーザとの対話処理などに従って、再構成静止画に配置する静止画の配置方法を決定する。
すなわち、複数の静止画を再構成静止画に配置することで再構成静止画を生成する場合に、図9に示すような優先順位の順にどの表示域に配置するのかを決定するという配置方法と、図10に示すような時系列の順にどの表示域に配置するのかを決定するという配置方法という2種類の配置方法があるので、ユーザとの対話処理などに従って、その内のどちらの配置方法を用いるのかを決定するのである。
続いて、ステップS111で、ステップS109で選択した静止画を、予め決定されている配置位置に、ステップS110で決定した配置方法に従って配置することで、複数の再構成静止画を生成する。ここで、配置位置については、再構成静止画を構成する静止画の枚数に応じて予め決定されているものとする。また、生成する再構成静止画の枚数についても予め決定されているものとする。
続いて、ステップS112で、ステップS111で生成した複数の再構成静止画の中から、最優先順位の再構成静止画を表示対象として選択する。
続いて、ステップS113で、表示対象として選択した再構成静止画に配置される静止画の中に、演出効果を高める処理の適用対象となる画像部分を持つ静止画が存在するのか否かを判断する。
例えば、“画(i) ”の笑顔検出により検出される笑顔や、“画(iv)”のアップショット検出により検出される動物体については演出効果を高める処理の適用対象となる画像部分となるので、このステップS112では、“画(i) ”の笑顔検出により笑顔が検出されたのかということや、“画(iv)”のアップショット検出により動物体が検出されたのかということを判断するのである。
このステップS113の判断処理に従って、表示対象として選択した再構成静止画の中に演出効果を高める処理の適用対象となる画像部分が存在しないことを判断するときには、ステップS114に進んで、表示対象として選択した再構成静止画をそのまま出力装置2に表示する。
一方、ステップS113の判断処理に従って、表示対象として選択した再構成静止画の中に演出効果を高める処理の適用対象となる画像部分が存在することを判断するときには、ステップS115に進んで、演出効果を高める処理の適用対象となる画像部分を、演出効果を高める形態で表示しつつ、表示対象として選択した再構成静止画を出力装置2に表示する。
例えば、笑顔の存在する静止画の全体を表示するのではなくて、その笑顔の画像部分の大きさを表示の大きさとして、その笑顔から遠く離れた画像部分を最初に表示し、それを起点としてその笑顔の画像部分に近づく形態で静止画の画像部分を逐次表示していって、最終的に、その笑顔の画像部分を表示するというような演出効果を高める表示形態で表示しつつ、生成した再構成静止画を出力装置2に表示するのである。
ステップS114,115で再構成静止画を出力装置2に表示すると、続いて、ステップS116で、ユーザが出力装置2の持つキーボードやマウスを操作したのか否かを検出して、ユーザ操作を検出すると、ステップS117に進んで、そのユーザ操作が再構成静止画の表示終了要求であるのか否かを判断する。
このステップS117の判断処理に従って、ユーザ操作が再構成静止画の表示終了要求であることを判断するときには、処理を終了する。
一方、ステップS117の判断処理に従って、ユーザ操作が再構成静止画表示終了要求ではないことを判断するときには、ステップS118に進んで、ユーザ操作がズーム要求であるのか否かを判断する。
このステップS118の判断処理に従って、ユーザ操作がズーム要求であることを判断するときには、ステップS119に進んで、ズーム要求のある画像部分(再構成静止画を構成する静止画に含まれる画像部分)をズーム表示してから、ステップS116の処理に戻る。
例えば、ステップS119では、静止画の全体を表示するのではなくて、ユーザが指定するズーム表示の対象となる画像部分の大きさを表示の大きさとして、その画像部分をユーザの指定するズーム倍率に応じてズーム表示するのである。このとき、ユーザがズーム表示の対象となる画像部分を指定しない場合にあって、例えば、“画(i) ”の笑顔検出により笑顔が検出されている場合には、その笑顔がズーム表示の対象となったと判断して、その笑顔をズーム表示するように処理したり、“画(iv)”のアップショット検出により動物体が検出されている場合には、その動物体がズーム表示の対象となったと判断して、その動物体をズーム表示するように処理することになる。
一方、ステップS118の判断処理に従って、ユーザ操作がズーム要求でないことを判断するときには、ステップS120に進んで、ユーザ操作が次の優先順位の再構成静止画の表示要求であるのか否かを判断する。
このステップS120の判断処理に従って、ユーザ操作が次の優先順位の再構成静止画の表示要求であることを判断するときには、ステップS121に進んで、ステップS111で生成した複数の再構成静止画の中から、次の優先順位の再構成静止画を表示対象として選択してから(次の優先順位のものがない場合には、最優先順位のものを選択する)、ステップS113の処理に戻る。
一方、ステップS120の判断処理に従って、ユーザ操作が次の優先順位の再構成静止画の表示要求でないことを判断するときには、ステップS122に進んで、ユーザ操作の要求する処理を実行してから、ステップS116の処理に戻る。
このようにして、本発明の映像処理装置1は、ユーザから処理対象の映像を指定して再構成静止画の表示要求があると、図11および図12のフローチャートに従って、処理対象の映像から1枚以上の重要な静止画群を選択し、それらを1枚の静止画に再構成して表示することを実行するのである。
本発明は、映像を処理する映像処理装置に適用できるものであり、本発明を用いることで、ユーザは映像の中身を1枚の静止画によって理解することができることから、その映像を視聴することなく、その映像がどのようなものであるのかを把握することができるようになる。
1 映像処理装置
100 映像入力部
101 第1の素材データ記憶部
102 画像・音響特徴量検出部
103 画像・音響特徴量記憶部
104 優先グループ種別判定部
105 静止画優先順位付与部
106 素材データ記憶構造変更部
107 第2の素材データ記憶部
108 静止画再構成部
109 編集データ記憶部
110 再構成静止画出力部

Claims (10)

  1. 映像を処理する映像処理装置であって、
    処理対象となる映像を入力する入力部と、
    入力映像の持つ画像特徴量および/または音響特徴量を検出対象として、入力映像を構成する各静止画について、検出結果が特徴量の程度を示す値となる値属性特徴量を含む、それらの静止画の持つ1つ以上の特徴量を検出する検出部と、
    前記検出した特徴量を用いて、入力映像を構成する各静止画に対して優先順位を付与する付与部と、
    前記付与した優先順位に基づいて、入力映像を構成する静止画の中から1枚以上の重要な静止画を選択して、それらの選択した静止画を1枚の静止画に再構成することで再構成静止画を生成する再構成部と、
    前記生成した再構成静止画を出力装置に出力する出力部とを備えることを、
    特徴とする映像処理装置。
  2. 請求項1に記載の映像処理装置において、
    前記検出部は、前記値属性特徴量として、少なくとも、入力映像の持つ音響データが示す強調状態の確率値とその音響データが示す感性状態の確率値のいずれか一方または双方を検出することを、
    特徴とする映像処理装置。
  3. 請求項1または2に記載の映像処理装置において、
    前記検出部は、1つまたは複数の前記値属性特徴量を検出することに加えて、検出結果が特徴量の有無となる1つまたは複数の有無属性特徴量を検出し、
    前記付与部は、最初に、前記有無属性特徴量の検出結果に基づいて、入力映像を構成する各静止画を優先順位順にグループ分けし、続いて、前記値属性特徴量に基づいて、そのグループ内における優先順位を決定することで、入力映像を構成する各静止画に対して優先順位を付与することを、
    特徴とする映像処理装置。
  4. 請求項1ないし3のいずれか1項に記載の映像処理装置において、
    前記再構成部は、前記付与した優先順位に基づいて、優先順位を持つ複数の再構成静止画を生成し、
    前記出力部は、前記出力装置からの出力要求に応答して、前記複数の再構成静止画をその優先順位順に出力することを、
    特徴とする映像処理装置。
  5. 請求項1ないし4のいずれか1項に記載の映像処理装置において、
    前記再構成部は、複数の静止画で構成される再構成静止画を生成するのか1枚の静止画で構成される再構成静止画を生成するのかを決定し、さらに、複数の静止画で構成される再構成静止画を生成することを決定する場合には、優先順位に応じて割り当てられた位置にそれらの静止画を配置するのか、時系列の順番に応じて割り当てられた位置にそれらの静止画を配置するのかを決定することで、再構成静止画を生成することを、
    特徴とする映像処理装置。
  6. 請求項1ないし5のいずれか1項に記載の映像処理装置において、
    前記出力部は、前記出力装置からズーム要求がある場合には、前記出力装置に出力する再構成静止画の持つズーム要求のある画像部分をズームする形態で出力することを、
    特徴とする映像処理装置。
  7. 請求項1ないし5のいずれか1項に記載の映像処理装置において、
    前記出力部は、前記出力装置に再構成静止画を出力するときに、その再構成静止画の持つ特定の画像部分へ向かう形態で、その再構成静止画の持つ複数の画像部分を逐次出力することを、
    特徴とする映像処理装置。
  8. 請求項1ないし7のいずれか1項に記載の映像処理装置において、
    前記検出した特徴量に基づいて、入力映像を構成する静止画の中から静止画として見づらいものとなる静止画を特定する特定部と、
    前記特定した静止画に対して前記付与部が付与した優先順位を低いものに変更する変更部とを備えることを、
    特徴とする映像処理装置。
  9. 請求項1ないし8のいずれか1項に記載の映像処理装置において、
    入力映像を構成する静止画のカット点からの時間経過量を測定する測定部と、
    前記測定した時間経過量に基づいて、前記検出した値属性特徴量を補正する補正部とを備えることを、
    特徴とする映像処理装置。
  10. 請求項1ないし9のいずれか1項に記載の映像処理装置を構成する手段としてコンピュータを機能させるための映像処理プログラム。
JP2009073031A 2009-03-25 2009-03-25 映像処理装置および映像処理プログラム Pending JP2010226547A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009073031A JP2010226547A (ja) 2009-03-25 2009-03-25 映像処理装置および映像処理プログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009073031A JP2010226547A (ja) 2009-03-25 2009-03-25 映像処理装置および映像処理プログラム

Publications (1)

Publication Number Publication Date
JP2010226547A true JP2010226547A (ja) 2010-10-07

Family

ID=43043231

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009073031A Pending JP2010226547A (ja) 2009-03-25 2009-03-25 映像処理装置および映像処理プログラム

Country Status (1)

Country Link
JP (1) JP2010226547A (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014043438A1 (en) * 2012-09-13 2014-03-20 Google Inc. Identifying a thumbnail image to represent a video

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2014043438A1 (en) * 2012-09-13 2014-03-20 Google Inc. Identifying a thumbnail image to represent a video
CN104782138A (zh) * 2012-09-13 2015-07-15 谷歌公司 识别缩略图图像以呈现视频
US9274678B2 (en) 2012-09-13 2016-03-01 Google Inc. Identifying a thumbnail image to represent a video
US11308148B2 (en) 2012-09-13 2022-04-19 Google Llc Identifying a thumbnail image to represent a video

Similar Documents

Publication Publication Date Title
JP5326910B2 (ja) 情報処理装置、情報処理方法およびプログラム
US8627206B2 (en) Image processing device and image processing method for displaying images in a spiral form
JP5111627B2 (ja) 映像処理装置及び映像処理方法
JP5630541B2 (ja) 情報処理装置、情報処理方法およびプログラム
JP2003087785A (ja) 動画像符号化データの形式変換方法及び装置
CN109474843A (zh) 语音操控终端的方法、客户端、服务器
JP2016046705A (ja) 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム
JP2011175598A (ja) 手話アニメーション生成装置及び手話アニメーション生成プログラム
CN114332318A (zh) 一种虚拟形象生成方法及其相关设备
JP6917788B2 (ja) 要約映像生成装置及びプログラム
WO2010045736A1 (en) Reduced-latency rendering for a text-to-movie system
JP5096259B2 (ja) 要約コンテンツ生成装置および要約コンテンツ生成プログラム
JP5798451B2 (ja) 情報処理装置およびその方法
JP2010028705A (ja) 映像要約装置および映像要約プログラム
CN109359687B (zh) 视频风格转换处理方法和装置
US9396574B2 (en) Choreography of animated crowds
JP3889178B2 (ja) 解像度変換画像圧縮復号装置
JP5908924B2 (ja) 音声処理装置、方法、プログラムおよび集積回路
JP2010226547A (ja) 映像処理装置および映像処理プログラム
JP6793169B2 (ja) サムネイル出力装置、サムネイル出力方法およびサムネイル出力プログラム
JP2022003447A (ja) 学習方法、コンテンツ再生装置、及びコンテンツ再生システム
JP4656199B2 (ja) 画像処理装置、サムネイル動画作成方法及びサムネイル動画作成プログラム
WO2020209120A1 (ja) 再生装置
JP7229696B2 (ja) 情報処理装置、情報処理方法、及びプログラム
JP2002230575A (ja) 映像効果方法および装置