JP5993243B2 - 映像処理装置及びプログラム - Google Patents

映像処理装置及びプログラム Download PDF

Info

Publication number
JP5993243B2
JP5993243B2 JP2012174410A JP2012174410A JP5993243B2 JP 5993243 B2 JP5993243 B2 JP 5993243B2 JP 2012174410 A JP2012174410 A JP 2012174410A JP 2012174410 A JP2012174410 A JP 2012174410A JP 5993243 B2 JP5993243 B2 JP 5993243B2
Authority
JP
Japan
Prior art keywords
video
importance
image
scene
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2012174410A
Other languages
English (en)
Other versions
JP2014033417A (ja
Inventor
高橋 正樹
正樹 高橋
藤沢 寛
寛 藤沢
藤井 真人
真人 藤井
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2012174410A priority Critical patent/JP5993243B2/ja
Publication of JP2014033417A publication Critical patent/JP2014033417A/ja
Application granted granted Critical
Publication of JP5993243B2 publication Critical patent/JP5993243B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Television Signal Processing For Recording (AREA)
  • Signal Processing For Digital Recording And Reproducing (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Description

本発明は、映像を処理する映像処理装置及びプログラムに関する。
近年、TVの多チャンネル化やインターネットのブロードバンド化に伴い、様々な映像(動画像)に触れる機会が増えている。そのため、多種多様な映像中から興味がある映像を選ぶ必要が生じるが、動画像は静止画とは異なり、視聴を完了するまでに映像時間長分の時間を要する。現状では、大半のユーザがリモコンの早送り機能で映像をスキップしながら映像を視聴しているのが現状である。
そこで、映像の時間長を自動短縮する技術への期待が高まっている。映像の時間長を短縮する際、映像の意味内容に関わるシーンは削除せず、冗長なシーンのみ取り除くことが望ましい。単純にフレームを間引くだけの短縮では、重要なシーンまで削除される危険性が高い。
重要シーンを選定する手法として、人が話している映像区間を抽出する手法や音響の高まりで盛り上がり区間を抽出する手法などが存在する。
例えば、映像から音響特徴を抜き出し、人物の発話部分を認識した上で映像を短縮する方法(例えば特許文献1参照)や、映像から無音区間を抽出し、映像を短縮する方法(例えば特許文献2参照)などがある。
また、映像解析を行ってテロップの有無を判定し、テロップをダイジェスト映像生成に用いる技術がある(例えば特許文献3参照)。また、リボンカービングという技術を用いて高速に時間軸を圧縮する技術がある(例えば非特許文献1参照)。
特開2003−169298号公報 特開2008−199456号公報 特開2000−23062号公報
平野 那由他 八島 由幸 "高速Ribbon Carvingを用いた動画像時間軸圧縮に関する一検討" 信学技報 IEICE Technical Report ITS2010-66,IE2010-141,p.281-286,2011.2
しかしながら、音声特徴を用いる従来技術では、映像特徴を考慮していないため、短縮処理が非効率になるおそれがある。また、映像特徴を用いる従来技術では、音声特徴を利用していないため、映像が不連続になり、音声に違和感が発生したりするおそれがある。
つまり、従来技術では、映像、音声双方の観点から重要なシーンを残しつつ、短縮された映像(以降、短縮映像とも称す)を生成することができなかった。
そこで、本発明は、映像、音声双方の観点から重要なシーンを残しつつ、短縮映像を生成することができる映像処理装置及びプログラムを提供することを目的とする。
本発明の一態様における映像処理装置は、入力された映像に対し、少なくとも動き特徴を含む画像特徴を解析する画像解析手段と、前記映像から少なくとも発話の尤度を含む音声特徴を解析する音声解析手段と、前記画像特徴と前記音声特徴とに基づき、前記映像の処理単位の重要度を算出する重要度算出手段と、前記重要度に基づき、前記映像の時間長を短縮する短縮手段とを備え、前記重要度算出手段は、前記映像のカットが検出されたフレームから次のカットが検出されるまで、前記音声特徴に乗算する第2重み係数を小さくし、前記画像特徴に乗算する第3重み係数を大きくする
また、前記重要度算出手段は、処理対象の前記処理単位の時間経過に基づく第1重み係数を前記重要度に乗算してもよい。
また、前記重要度算出手段は、前記映像の開始直後の第1所定時間及び終了直前の第2所定時間の第1重み係数を、該第1所定時間及び該第2所定時間以外の時間の第1重み係数よりも大きくしてもよい。
また、前記画像特徴及び前記音声特徴に基づきシーン分類を行うシーン分類手段をさらに備え、前記重要度算出手段は、前記シーン分類手段により分類されたシーンが所定のシーンである場合、前記所定のシーンに含まれる処理単位の前記重要度を調整してもよい。
また、前記短縮手段は、短縮後の映像の連続性を考慮して前記映像の時間長を短縮してもよい。
また、前記画像解析手段は、処理対象画像の顔検出結果に基づく見え特徴をさらに解析し、前記音声解析手段は、前記処理対象画像に対応する音声レベルをさらに解析し、
前記重要度算出手段は、前記動き特徴と前記見え特徴とに基づく画像特徴、及び前記発話の尤度と前記音声レベルとに基づく音声特徴に基づき、前記重要度を算出してもよい。
また、前記映像の時間長を設定する設定手段をさらに備え、前記短縮手段は、
前記設定手段により設定された時間長に前記映像を短縮してもよい。
また、本発明の他の態様におけるプログラムは、コンピュータに、入力された映像に対し、少なくとも動き特徴を含む画像特徴を解析する画像解析ステップと、前記映像から少なくとも発話の尤度を含む音声特徴を解析する音声解析ステップと、前記画像特徴と前記音声特徴とに基づき、前記映像の処理単位の重要度を算出する重要度算出ステップと、前記重要度に基づき、前記映像の時間長を短縮する短縮ステップとを実行させる。
本発明によれば、映像、音声双方の観点から重要なシーンを残しつつ、短縮映像を生成することができる。
実施例1における映像処理装置の概略構成の一例を示すブロック図。 実施例1における映像処理装置の機能の一例を示すブロック図。 顔検出結果の一例を示す図。 映像短縮処理を説明する図。 映像の連続性を考慮した重要度の変更の一例を示す図。 実施例1における映像短縮処理の一例を示すフローチャート。 実施例2における映像処理装置の機能の一例を示すブロック図。 実施例2における映像短縮処理の一例を示すフローチャート。 実施例3における映像処理装置の機能の一例を示すブロック図。 発話シーンの一例を示す図。 解説シーンの一例を示す図。 背景シーンの一例を示す図。 実施例3における映像短縮処理の一例を示すフローチャート。
以下、添付図面を参照しながら各実施例について詳細に説明する。各実施例では、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを残しつつ、意味内容的に不要な処理単位(例えばフレーム単位又は画素単位)を削除することで映像を短縮する。
[実施例1]
<構成>
図1は、実施例1における映像処理装置10の概略構成の一例を示すブロック図である。図1に示すように、映像処理装置10は、制御部102、主記憶部104、補助記憶部106、ドライブ装置108、ネットワークI/F部110、入力部112、及び表示部114を有する。これら各構成は、バスを介して相互にデータ送受信可能に接続されている。
制御部102は、コンピュータの中で、各装置の制御やデータの演算、加工を行うプロセッサである。制御部102は、例えばCPU(Central Processing Unit)やDSP(Digital Signal Processor)である。
また、制御部102は、主記憶部104又は補助記憶部106に記憶された映像短縮処理のプログラムを実行する演算装置である。制御部102は、入力部112や記憶装置からデータを受け取り、演算、加工した上で、表示部114や記憶装置などに出力する。
主記憶部104は、ROM(Read Only Memory)やRAM(Random Access Memory)などである。主記憶部104は、制御部102が実行する基本ソフトウェアであるOS(Operating System)やアプリケーションソフトウェアなどのプログラムやデータを記憶又は一時保存する記憶装置である。
補助記憶部106は、HDD(Hard Disk Drive)などであり、アプリケーションソフトウェアなどに関連するデータを記憶する記憶装置である。
ドライブ装置108は、記録媒体116、例えばフレキシブルディスクからプログラムを読み出し、記憶装置にインストールする。
また、この記録媒体116に格納された所定のプログラムは、ドライブ装置108を介して映像処理装置10にインストールされる。インストールされた所定のプログラムは、映像処理装置10により実行可能となる。
ネットワークI/F部110は、有線及び/又は無線回線などのデータ伝送路により構築されたLAN(Local Area Network)、WAN(Wide Area Network)などのネットワークを介して接続された周辺機器と映像処理装置10とのインターフェースである。
入力部112は、カーソルキー、数字入力及び各種機能キー等を備えたキーボード、表示部114の表示画面上でキーの選択等を行うためのマウスやスライドパッド等を有する。また、入力部112は、ユーザが制御部102に操作指示を与えたり、データを入力したりするためのユーザインターフェースである。
表示部114は、LCD(Liquid Crystal Display)等により構成され、制御部102から入力される表示データに応じた表示が行われる。
映像処理装置10は、例えばPC(Personal Computer)、サーバ、タブレット端末、スマートフォンなどであり、少なくとも制御部102や主記憶部104や補助記憶部106を有する情報処理装置であればよい。
<機能>
次に、実施例1における映像処理装置10の機能について説明する。図2は、実施例1における映像処理装置10の機能の一例を示すブロック図である。図2に示す映像処理装置10は、画像解析手段202と、音声解析手段204と、重要度算出手段206と、短縮手段208とを有する。
映像処理装置10の各手段は、例えば、制御部102及びワークメモリとしての主記憶部104などにより実現されうる。制御部102が、映像短縮プログラムを実行することで、映像処理装置10が、上記各手段として機能する。
画像解析手段202は、入力された映像に対し、少なくとも動き特徴を含む画像特徴を解析する。また、画像解析手段202は、画像特徴として、顔検出を行い、検出された顔の大きさを用いてもよい。画像解析手段202は、動き特徴解析手段222と、見え(appearance)特徴解析手段224を有する。
映像上の動きが激しいシーン程、一般に重要であることが多い。そこで、動き特徴解析手段222は、各フレームで画素毎に隣接フレームとの差分を算出する。隣接フレームとは、例えば前、又は後、又は前後のフレームである。動き特徴解析手段222は、画像内での全画素の差分の平均値を求め、この平均値をフレームの動き特徴とする。動きの多い映像区間は重要であることが多いことから、この差分特徴を用いることで映像的に重要なシーンを理解することができる。
動き特徴解析手段222は、例えば隣接フレームを1つ前のフレームとすると、式(1)により動き特徴を求めることができる。
Figure 0005993243
また、人物が映っているシーンも重要であることが多い。そこで、見え特徴解析手段224は、例えば、顔検出を行い、顔の大きさを見え特徴とする。顔検出としては、例えばViolaとJonesが提案した顔検出アルゴリズムを用いることにより、画像中の人物顔を高速に自動検出することができる。
このアルゴリズムは広く普及しており、オープンソースの画像処理・認識ライブラリOpenCVにも公開されている(http://opencv.jp/)。
また、顔検出アルゴリズムは、検出した顔の位置、半径を出力することができる。そこで、見え特徴解析手段224は、検出した顔領域の中の最大半径に応じて見え特徴を定める。
図3は、顔検出結果の一例を示す図である。図3に示すように、画像内から2つの顔が検出されているが、大きい方の顔の半径125[pixel]を見え特徴とする。また、この例では、顔の最大半径を見え特徴とするが、検出された顔の数や、エッジ量の多さを見え特徴としてもよい。見え特徴解析手段224は、見え特徴Fを、例えば顔の最大半径とする。
このとき、画像解析手段202は、時刻tでの画像特徴Vを次の式(2)により算出する。
Figure 0005993243
':正規化後のM(M'=M/255)
':正規化後のF(F'=F/(W/2))
α、β:重み係数
正規化は、それぞれのパラメータを0〜1.0の値にするために行われる。Wは、画像の水平幅を示す。α、βの重み係数は、適切な値が予め設定されていればよい。画像解析手段202は、算出したVを重要度算出手段206に出力する。
図2に戻り、音声解析手段204は、重要な映像区間を抽出するため、映像から少なくとも発話の尤度を含む音声特徴を解析する。例えば、発話があるシーンは、重要なシーンであることが多い。また、大きな音が含まれる映像区間は重要なシーンであることが多い。そこで、音声解析手段204は、音声レベルを検出するようにしてもよい。音声解析手段204は、例えば発話検出手段242と、音声レベル検出手段244とを有する。
発話検出手段242は、既存の発話検出技術を利用し、発話の尤度Pを求める。発話検出技術の一例としては、累積音素尤度を用いて発話を検出する技術がある(今井亨,佐藤庄衛,小林彰夫,尾上和穂,本間真一,"累積音素尤度によるオンライン発話検出と男女音声認識,"信学総大,D-14-8,p.132, 2006.3.)。
音声レベル検出手段244は、映像のうち、所定フレームに対応する音声レベルLを検出する。音声レベルの検出については、公知の技術を適用すればよい。
音声解析手段204は、時刻tでの音声特徴Atを次の式(3)により算出する。
Figure 0005993243
':正規化後のL(L/音声レベルの最大値)
α、β:重み係数
正規化は、Lを0〜1.0の値にするために行われる。Ptは、0〜1.0の値をとる。α、βの重み係数は、適切な値が予め設定されていればよい。音声解析手段204は、算出したAを重要度算出手段206に出力する。
重要度算出手段206は、画像解析手段202から取得した画像特徴Vと、音声解析手段204から取得した音声特徴Aとを用いて、映像の処理単位の重要度を算出する。処理単位は、以降ではフレームとして説明するが、非特許文献1のように、画素単位としてもよい。
重要度算出手段206は、重要度Iを次の式(4)により算出する。
Figure 0005993243
ここで、α、βの重み係数は、適切な値が予め設定されていればよい。重要度Iは、0〜1.0に正規化されており、この重要度Iの大きい順にフレームを並べることで、各フレームの重要性が分かる。重要度算出手段206は、算出した各フレームの重要度Itを短縮手段208に出力する。
短縮手段208は、フレーム毎に与えられた重要度に基づいて、映像の時間長を短縮し、短縮映像を生成する。重要度が低いフレームほど、内容に関する情報に乏しく、冗長なシーンであると考えられる。
そこで、短縮手段208は、重要度で順位付けした各フレームを、重要度の値が小さなフレームから削除する。このように1フレームずつ削除することで、任意の映像長の短縮映像を生成することができる。
図4は、映像短縮処理を説明する図である。図4に示すように、短縮手段208は、各フレームを重要度の高い順に並べ、重要度の低いフレームから削除することで、任意の時間長の短縮映像を生成する。
短縮手段208は、設定手段282を有する。設定手段282は、映像の時間長を設定する。設定手段282は、表示画面上にスライドバーを表示し、このスライドバーの位置により映像の時間長を設定することができる。
短縮手段208は、設定手段282により設定された時間長になるように、重要度の低いフレームから削除し、映像を短縮する。
また、短縮手段208は、短縮後の映像の連続性を考慮して、映像の時間長を短縮してもよい。図5は、映像の連続性を考慮した重要度の変更の一例を示す図である。図5に示すように、時刻tのフレームの重要度が低く、時刻tの前後の数フレームの重要度が高い場合、短縮映像の連続性を考慮して、短縮手段208は、時刻tのフレームの重要度を高くする。
また、時刻tn+2のフレームの重要度が高く、時刻tn+2の前後の数フレームの重要度が低い場合、短縮映像の連続性を考慮して、短縮手段208は、時刻tn+2のフレームの重要度を低くする。
なお、重要度の高低の判定について、短縮手段208は、削除されるフレーム中で一番高い重要度を閾値とし、この閾値より大きければ重要度が高い、この閾値以下であれば重要度が低いと判定する。
よって、短縮手段208は、削除されるフレームの前後で所定数のフレームが削除されない場合、この削除されるフレームを削除しないようにしてもよい。また、短縮手段208は、削除されないフレームの前後で所定数のフレームが削除される場合、この削除されないフレームを削除するようにしてもよい。
<動作>
次に、実施例1における映像処理装置10の動作について説明する。図6は、実施例1における映像短縮処理の一例を示すフローチャートである。ステップS101で、映像処理装置10は、処理対象の映像を取得する。処理対象の映像は、ネットワークから配信されたり、記録媒体116から取得されたりする。
ステップS102で、画像解析手段202は、入力された映像から、少なくとも動き特徴を解析する。また、画像解析手段202は、入力された映像から、見え特徴を解析し、動き特徴と見え特徴に基づく画像特徴を解析してもよい。
ステップS103で、音声解析手段204は、入力された映像から、少なくとも発話の尤度を解析する。また、音声解析手段204は、入力された映像から、音声レベルを解析し、発話の尤度と音声レベルに基づく音声特徴を解析してもよい。
なお、ステップS102とステップS103は、順不同であり、並列に処理されてもよい。
ステップS104で、重要度算出手段206は、画像特徴と音声特徴とに基づく処理単位(例えばフレーム)の重要度を算出する。重要度算出手段206は、それぞれの特徴に重み係数を乗算することで重要度を算出する。
ステップS105で、短縮手段208は、重要度に基づいて、映像の時間長を短縮する。また、短縮手段208は、設定された時間長に短縮してもよいし、連続性を考慮して短縮映像を生成してもよい。
以上、実施例1によれば、映像、音声双方の観点から重要なシーンを残しつつ、短縮映像を生成することができる。また、映像内の画像と音声双方の特徴を考慮した重要度に基づいて短縮映像を作成することで、画と音が同期した短縮映像を作成することができる。なお、実施例1によれば、映像の連続性を考慮して短縮映像を生成することもできる。
[実施例2]
次に、実施例2における映像処理装置について説明する。実施例2では、各重み係数を調整し、より適切に重要なシーンを残しつつ、映像を短縮できる。
<構成>
実施例2における映像処理装置の構成は、図1に示す構成と同様であるため、同じ符号を用いて説明する。
<機能>
図7は、実施例2における映像処理装置20の機能の一例を示すブロック図である。図7に示す映像処理装置20の機能のうち、図2に示す機能と同様のものは同じ符号を付す。以降では、実施例1の機能と異なる機能について主に説明する。
重要度算出手段302は、重み係数調整手段322を有する。重み係数調整手段322は、各重み係数を調整する。
(重要度の重み係数)
重要度算出手段302は、例えば、処理対象の処理単位の時間経過に基づく重み係数Wを重要度Iに乗算する。重要度算出手段302は、重み係数Wを次の式(5)に算出する。
Figure 0005993243
tを番組開始からのフレーム数、Tを当該番組のフレーム総数とする。
一般的に、放送番組は、開始直後と終了直前に重要なシーンが含まれていることが多い。そのため、開始直後や終了間際のフレームの重要度の比重を高めることが有効である。
重み係数調整手段322は、この重み係数Wを重要度Iに乗じることで時間経過を考慮したフレーム重要度を算出できる。比重が0.0となることを防ぐため、ここでは最小値を0.2とした。
また、重み係数調整手段322は、例えば、映像の開始直後の第1所定時間及び終了直前の第2所定時間の重み係数Wを、第1所定時間及び該第2所定時間以外の時間の重み係数Wよりも大きくしてもよい。第1所定時間、第2所定時間は予め設定された値である。
(画像、音声の重み係数)
また、重み係数調整手段322は、画像特徴の重み係数α、音声特徴の重み係数βを調整してもよい。重み係数調整手段322は、映像のカットが検出されたフレームから次のカットが検出されるまで、音声特徴に乗算する重み係数βを小さくし、画像特徴に乗算する重み係数αを大きくしてもよい。
ここで、カットとカットに挟まれた映像区間をショットと呼ぶ。映像処理装置20は、ショットを抽出する際、公知の技術(例えば特開2008−83894号公報参照)を用いればよい。一般的に、各ショットの始めではコメントで状況説明がなされることが多い。そのため、カット切替点直後は音声を重視し、以降、画像の重要度を上げていくことが望ましい。
そこで、重み係数調整手段322は、カット切替からの経過時間を計測し、時間と共に音声の重要度βを下げ、逆に画像の重要度αを高める。例えば、fを直前のカット点からのフレーム数、FLを当該ショットのフレーム総数とする。
重み係数調整手段322は、画像と音声の重み係数をそれぞれ次の式により算出する。
Figure 0005993243
Figure 0005993243
Figure 0005993243
上記の式に従って重み係数α(f)、β(f)を算出することで、カット切替点から徐々に画像の重みを上げてゆき、徐々に音声の重みを下げることができる。画像、音声の重みが極度に高くならないように、上記式(6)(7)では、0.2以上、0.8以下となる制限を加えたが、この限りではない。
重み係数調整手段322は、重要度に乗算する重み係数Wと、画像特徴、音声特徴に乗算する重み係数α、βとを両方求めるようにしてもよいし、いずれか一方を求めるようにしてもよい。
重要度算出手段302は、重み係数調整手段322により調整された重み係数を用いて重要度を算出する。算出された重要度を用いる映像短縮については、実施例1と同様である。
<動作>
次に、実施例2における映像処理装置20の動作について説明する。図8は、実施例2における映像短縮処理の一例を示すフローチャートである。図8に示すステップS201〜S203の処理は、図6に示すステップS101〜S103の処理と同様である。
ステップS204で、重み係数調整手段322は、重要度に乗算する重み係数Wt、及び/又は画像特徴、音声特徴に乗算する重み係数α、βを算出する。
ステップS205で、重み係数算出手段302は、算出された重み係数を用いて重要度を算出する。
ステップS206で、短縮手段208は、重み係数算出手段302により算出された重要度を用いて、映像の時間長を短縮する。短縮手段208の短縮方法は、実施例1と同様である。
以上、実施例2によれば、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを抽出し、映像を短縮させる。また、実施例2によれば、各重み係数を調整し、より適切に重要なシーンを残しつつ、映像を短縮できる。
[実施例3]
次に、実施例3における映像処理装置について説明する。実施例3では、画像、音声解析により所定のシーンを分類し、分類された所定のシーンに含まれるフレームの重要度を調整することができる。これにより、より適切に重要なシーンを残しつつ、映像を短縮できる。
<構成>
実施例3における映像処理装置の構成は、図1に示す構成と同様であるため、同じ符号を用いて説明する。
<機能>
図9は、実施例3における映像処理装置30の機能の一例を示すブロック図である。図9に示す映像処理装置30の機能のうち、図2に示す機能と同様のものは同じ符号を付す。以降では、実施例1の機能と異なる機能について主に説明する。
シーン分類手段402は、画像特徴及び音声特徴に基づきシーン分類を行う。シーン分類手段402は、画像と音声の双方を考慮し、シーン分類したうえで各シーンに対応する重要度を付与するよう制御する。
シーン分類手段402は、例えばサポートベクターマシンなどの機械学習の枠組みを利用することで実現することができる。特徴量には画像のフレーム差分量、エッジ量、顔検出の結果、音声のレベル、周波数、発話の信頼度などが利用できる。シーン分類手段402は、例えば、下記のようなシーンを分類する。
(発話シーン)
図10は、発話シーンの一例を示す図である。人物が話しているシーンは、比較的重要であることが多い。そこで、シーン分類手段402は、発話シーンのフレームの重要度を高めるようにする。発話シーンでは、画像から顔検出を行い、音声からの発話検出などがシーン分類に有効に作用すると考えられる。
(解説シーン)
図11は、解説シーンの一例を示す図である。文字やグラフを提示して解説するシーンは、他のシーンに比べて重要である場合が多い。そこで、シーン分類手段402は、解説シーンの重要度を高めるようにする。解説シーンには、パターンを手に持った解説やグラフを全面に表示したうえでの解説など様々あるが、画像には文字や図形が現れ、かつ音声には人の発話が現れることが多い。解説シーンでは、画像のエッジ特徴と音声の発話検出が有効に作用すると考えられる。
(背景シーン)
図12は、背景シーンの一例を示す図である。映像上は激しい動きがあるシーンでも、実際は木立の揺れや川の流れなどの背景映像のことがある。そこで、シーン分類手段402により背景シーンに分類されたフレームは、その重要度を下げる。背景シーンでは、音声は無音に近い低いレベルとなることが多い。画像のフレーム差分量と音声レベルが、背景シーンの検出に有効に作用すると考えられる。
シーン分類手段402は、例えば上記のように、発話シーン、解説シーン、背景シーンに現在のシーンが分類された場合、そのシーン名を重要度算出手段404に通知する。
重要度算出手段404は、シーン分類手段により分類されたシーンが所定のシーンである場合、所定のシーンに含まれるフレームの重要度を調整する。重要度算出手段404は、処理対象のフレームが発話シーン、解説シーンに含まれる場合、算出した重要度に例えば1.1を乗算し、重要度を高める。また、重要度算出手段404は、処理対象のフレームが背景シーンに含まれる場合、算出した重要度に例えば0.9を乗算し、重要度を低くする。
重要度算出手段404は、シーン分類を用いて重要度を必要に応じて調整する。調整された重要度を用いる映像短縮については、実施例1と同様である。
<動作>
次に、実施例3における映像処理装置30の動作について説明する。図13は、実施例3における映像短縮処理の一例を示すフローチャートである。図13に示すステップS301〜S304の処理は、図6に示すステップS101〜S104の処理と同様である。
ステップS305で、シーン分類手段402は、サポートベクターマシンなどを用い、処理対象のフレームを含むショットがどんなシーンかを分類する。
ステップS306で、重要度算出手段404は、分類されたシーンが所定のシーンであるかを判定する。所定のシーンであれば(ステップS306−YES)ステップS307に進み、所定のシーンでなければ(ステップS306−NO)ステップS308に進む。
ステップS307で、重要度算出手段404は、所定のシーンの内容に応じて重要度を調整する。例えば、所定のシーンが発話シーン及び解説シーンの場合、重要度算出手段404は、重要度を高める。また、所定のシーンが背景シーンの場合、重要度算出手段404は、重要度を低くする。
ステップS308で、短縮手段208は、重要度算出手段404により調整された重要度を用いて、映像の時間長を短縮する。短縮手段208の短縮方法は、実施例1と同様である。
以上、実施例3によれば、映像の画像特徴及び音声特徴の両方を考慮して重要なシーンを抽出し、映像を短縮させることができる。また、実施例3によれば、画像、音声解析により所定のシーンを分類し、分類された所定のシーンに含まれるフレームの重要度を調整することができる。これにより、より適切に重要なシーンを残しつつ、映像を短縮できる。
なお、上記各実施例によれば、映像、音声両方を考慮した重要シーン抽出に基づく映像時間長を短縮することができる。各実施例では、映像上の動きが激しいシーン程、一般に重要であることが多い。そこで、隣接フレームの画素値を参照し、変化分が大きいフレームに高い重要度を付与する。
また、人物が写っているシーンは重要なことが多いことから、顔領域が検出されたフレームの重要度を高める。また、音声信号を参照し、音声レベルが高いフレームや人物の発言に近い周波数にある部分を重要シーンとして抽出する。これら画像、及び音声の特徴を総合的に考慮し、フレーム(もしくは画素)毎に重要度を算出する。この重要度が低いものから削除することで、内容に関係する部分は可能な限り残したまま、効果的に映像時間長を短縮することができる。よって、視聴者には、時間長を短縮していることが気付かれにくい、短縮映像を提供することができる。
なお、上記の映像処理装置で実行されるプログラムは、実施例で説明した各部を含むモジュール構成となっている。実際のハードウェアとしては、制御部102が補助記憶部106からプログラムを読み出して実行することにより上記各部のうち1又は複数の各部が主記憶部104上にロードされ、1又は複数の各部が主記憶部104上に生成されるようになっている。
また、上述した実施例で説明した映像短縮処理は、コンピュータに実行させるためのプログラムとして実現されてもよい。このプログラムをサーバ等からインストールしてコンピュータに実行させることで、前述した映像短縮処理を実現することができる。
また、このプログラムを記録媒体116に記録し、このプログラムが記録された記録媒体116をコンピュータなどに読み取らせて、前述した映像短縮処理を実現させることも可能である。
なお、記録媒体116は、CD−ROM、フレキシブルディスク、光磁気ディスク等の様に情報を光学的,電気的或いは磁気的に記録する記録媒体、ROM、フラッシュメモリ等の様に情報を電気的に記録する半導体メモリ等、様々なタイプの記録媒体を用いることができる。
以上、実施例について詳述したが、特定の実施例に限定されるものではなく、特許請求の範囲に記載された範囲内において、上記実施例以外にも種々の変形及び変更が可能である。
10、20、30 映像処理装置
202 画像解析手段
204 音声解析手段
206、302、404 重要度算出手段
208 短縮手段
222 動き特徴解析手段
224 見え特徴解析手段
242 発話検出手段
244 音声レベル検出手段
282 設定手段
322 重み係数調整手段
402 シーン分類手段

Claims (8)

  1. 入力された映像に対し、少なくとも動き特徴を含む画像特徴を解析する画像解析手段と、
    前記映像から少なくとも発話の尤度を含む音声特徴を解析する音声解析手段と、
    前記画像特徴と前記音声特徴とに基づき、前記映像の処理単位の重要度を算出する重要度算出手段と、
    前記重要度に基づき、前記映像の時間長を短縮する短縮手段と
    を備え
    前記重要度算出手段は、
    前記映像のカットが検出されたフレームから次のカットが検出されるまで、前記音声特徴に乗算する第2重み係数を小さくし、前記画像特徴に乗算する第3重み係数を大きくする映像処理装置。
  2. 前記重要度算出手段は、
    処理対象の前記処理単位の時間経過に基づく第1重み係数を前記重要度に乗算する請求項1記載の映像処理装置。
  3. 前記重要度算出手段は、
    前記映像の開始直後の第1所定時間及び終了直前の第2所定時間の第1重み係数を、該第1所定時間及び該第2所定時間以外の時間の第1重み係数よりも大きくする請求項2記載の映像処理装置。
  4. 前記画像特徴及び前記音声特徴に基づきシーン分類を行うシーン分類手段をさらに備え、
    前記重要度算出手段は、
    前記シーン分類手段により分類されたシーンが所定のシーンである場合、前記所定のシーンに含まれる処理単位の前記重要度を調整する請求項1乃至いずれか一項に記載の映像処理装置。
  5. 前記短縮手段は、
    短縮後の映像の連続性を考慮して前記映像の時間長を短縮する請求項1乃至いずれか一項に記載の映像処理装置。
  6. 前記画像解析手段は、
    処理対象画像の顔検出結果に基づく見え特徴をさらに解析し、
    前記音声解析手段は、
    前記処理対象画像に対応する音声レベルをさらに解析し、
    前記重要度算出手段は、
    前記動き特徴と前記見え特徴とに基づく画像特徴、及び前記発話の尤度と前記音声レベルとに基づく音声特徴に基づき、前記重要度を算出する請求項1乃至いずれか一項に記載の映像処理装置。
  7. 前記映像の時間長を設定する設定手段をさらに備え、
    前記短縮手段は、
    前記設定手段により設定された時間長に前記映像を短縮する請求項1乃至いずれか一項に記載の映像処理装置。
  8. コンピュータを、請求項1乃至7いずれか一項に記載の映像処理装置として機能させることを特徴とするプログラム。
JP2012174410A 2012-08-06 2012-08-06 映像処理装置及びプログラム Expired - Fee Related JP5993243B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012174410A JP5993243B2 (ja) 2012-08-06 2012-08-06 映像処理装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2012174410A JP5993243B2 (ja) 2012-08-06 2012-08-06 映像処理装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2014033417A JP2014033417A (ja) 2014-02-20
JP5993243B2 true JP5993243B2 (ja) 2016-09-14

Family

ID=50282907

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012174410A Expired - Fee Related JP5993243B2 (ja) 2012-08-06 2012-08-06 映像処理装置及びプログラム

Country Status (1)

Country Link
JP (1) JP5993243B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230206630A1 (en) * 2020-05-26 2023-06-29 Nec Corporation Information processing device, control method and storage medium

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4913288B2 (ja) * 2001-05-14 2012-04-11 ソニー株式会社 情報信号処理装置及び情報信号処理方法
US7127120B2 (en) * 2002-11-01 2006-10-24 Microsoft Corporation Systems and methods for automatically editing a video
JP2007095135A (ja) * 2005-09-27 2007-04-12 Sanyo Electric Co Ltd 映像記録再生装置
JP5393237B2 (ja) * 2009-04-24 2014-01-22 キヤノン株式会社 画像表示装置及びその制御方法、並びにプログラム及び記憶媒体
JP5092000B2 (ja) * 2010-09-24 2012-12-05 株式会社東芝 映像処理装置、方法、及び映像処理システム

Also Published As

Publication number Publication date
JP2014033417A (ja) 2014-02-20

Similar Documents

Publication Publication Date Title
US11012486B2 (en) Personalized video playback
US11024338B2 (en) Device, method, and non-transitory computer readable medium for processing motion image
US9681186B2 (en) Method, apparatus and computer program product for gathering and presenting emotional response to an event
JP5057918B2 (ja) 電子機器およびシーン種類表示方法
US10559323B2 (en) Audio and video synchronizing perceptual model
JP5460709B2 (ja) 音響信号処理装置および方法
US10789990B2 (en) Video data learning and prediction
WO2020215722A1 (zh) 视频处理方法和装置、电子设备及计算机可读存储介质
US10108395B2 (en) Audio device with auditory system display and methods for use therewith
JP2011253375A (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2022001027A1 (zh) 网络教学中投屏画面自适应的方法以及装置
US20190171760A1 (en) System, summarization apparatus, summarization system, and method of controlling summarization apparatus, for acquiring summary information
JP2016046705A (ja) 会議録編集装置、その方法とプログラム、会議録再生装置、および会議システム
JP2010011409A (ja) 映像ダイジェスト装置及び映像編集プログラム
US8868419B2 (en) Generalizing text content summary from speech content
JP5330551B2 (ja) 電子機器および表示処理方法
JP5993243B2 (ja) 映像処理装置及びプログラム
JP2009278202A (ja) 映像編集装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
JP2008058956A (ja) 音声再生装置
JP5039020B2 (ja) 電子機器および映像コンテンツ情報表示方法
JP2009175803A (ja) 障がい者向けパーソナルコンピュータ要約者支援方法及び装置及びプログラム
JP6838739B2 (ja) 近時記憶支援装置
JP6528484B2 (ja) 画像処理装置、アニメーション生成方法及びプログラム
JP2011061263A (ja) ダイジェスト映像作成装置およびダイジェスト映像作成プログラム
JP5802139B2 (ja) 音声処理装置及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20150701

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160428

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160510

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20160622

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20160726

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20160819

R150 Certificate of patent or registration of utility model

Ref document number: 5993243

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees