JP4920395B2

JP4920395B2 - 動画要約自動作成装置、方法、及びコンピュータ・プログラム

Info

Publication number: JP4920395B2
Application number: JP2006334555A
Authority: JP
Inventors: 祐宮崎
Original assignee: Yahoo Japan Corp
Current assignee: Yahoo Japan Corp
Priority date: 2006-12-12
Filing date: 2006-12-12
Publication date: 2012-04-18
Anticipated expiration: 2026-12-12
Also published as: JP2008148121A

Description

本発明は、動画要約自動作成装置、方法、及びコンピュータ・プログラムに関する。より詳しくは、動画の要約を自動作成する装置、動画の要約を自動作成する方法、及びそのコンピュータ・プログラムに関する。

従来、ＤＶＤ等のメディアに収められた動画には、シーンごとに分割して１つのまとまりとし、その１つを章とし、章ごとにその章の最初の画像もしくはメディア作成者が指定した場面の画像を表示するダイジェストを作成したものが存在する。そして、この作成されたダイジェストを、動画が収められたＤＶＤ等に動画にプラスして収録することによって、該当の章の動画の頭出しを可能にする等のユーザの使い勝手を良くした方法が用いられている。

また、映像の自動要約方法について、字幕付きの映像の中に話題転換語を検出することにより、映像要約画像を出力する映像の自動要約方法が開示されている（例えば、特許文献１）。この特許文献１によれば、「次に」「ところで」等の話題を切り替える言葉である話題転換語を検出することにより、話題転換信号を出力し、話題転換信号が出力された時点での画像、又は一定時間後の画像を要約に使用する画像としている。これは、字幕情報付き映像の変わり目ごとの画像を集めることで、より少ない画像で映像の要約を生成するものである。

さらに、別の文献では、放送電波を受信し、その信号に含まれる代表的な部分の映像情報と音声情報とを別々に抽出した上で、それらの映像情報及び音声情報を合成して要約を作成する方法が開示されている（例えば、特許文献２）。
特開平１１−３３１７６１号公報特開２００２−１４９６７２号公報

しかし、特許文献１は、字幕付きの映像についてのものであり、例えば、テレビやインターネットで放映されている映像や、邦画等では、字幕のないものが多く存在する。このような、日本国内で広く放映されている字幕のない映像では、特許文献１に記載の方法を使用できない。また、話題転換語が出現した時点での画像又は一定時間後の画像を要約に使用するが、特許文献１は、字幕付きのニュース等の報道番組を前提としたものであり、洋画等にこの方法を用いても、必ずしも代表画像を表示できない。

また、特許文献２は、映像情報と音声情報とを別々に抽出しているが、音声情報については、音声の一部をそのまま切り出したものである。従って、複数の音声、例えば、雑音が入力されている場合には、雑音を含んだ音声をそのまま抽出することとなり、聞きづらく、結果として、重要でない音声を含んだものとなる。

発明者は、上述の問題点に鑑み、要約を作成するにあたって、字幕のないものや、複数の音声が入力されている動画であっても、要約を作成可能な方法として、音声認識を用いて音声データをテキスト化し、重要語を抽出して使用することを考えた。また、動画の画像から代表画像を見つけ出すことに関して、テキストデータから重要語を抽出するのと同様の考えに基づき行うことを見出した。

そこで、本発明は、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することを目的とする。

上記目的のため、具体的には以下のようなものを提供する。

（１）複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成装置であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記テキストデータからキーワードとなる重要語を抽出する重要語抽出部と、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するシーン統合部と、を備える動画要約自動作成装置。

（１）の構成によれば、動画要約自動作成装置は、シーン抽出部を備える。シーンとは、ひとかたまりの画像データから構成され、動画データの一部分を示す。また、音声認識部と、重要語抽出部と、代表画像抽出部と、を備える。音声データから生成された重要語と、代表画像データとは、別個に抽出される。そして、シーン統合部は、抽出された重要語と、代表画像データと、はシーンごとに統合して動画要約データを作成する。

よって、動画データからシーンを抽出し、シーンごとに重要語と代表画像とを抽出し、それらを統合することで、動画の要約であるあらすじを自動で作成することができる。

重要語を抽出する方法として音声データを用いることは、音声データが有する豊富な情報量を活用できるという利点がある。一方で、現状では音声認識の認識率が低いという問題を含む。音声認識の認識率が低いと、正確な文書を生成できないため、そのままでは使用することが難しい。しかし、生成されたテキストデータからキーワードとなる重要語を抽出することで、認識率が低い弱点を吸収することができる。

（２）前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、（１）記載の動画要約自動作成装置。

（２）の構成によれば、動画データが、画像データと共に文字データをさらに有する場合において、動画要約自動作成装置が備える重要語抽出部は、文字データと、音声認識部により生成されたテキストデータと、から重要語を抽出する。

よって、例えば字幕付きの洋画等、日本語の音声データではない場合において、字幕である文字データを用いることにより、シーンごとの重要語を抽出することができ、シーン内の代表的なキーワードをあらすじに用いることができる。また、字幕付きで日本語の音声データを含む映像においても、字幕と音声データから変換されたテキストデータとを用いることにより、重要語をさらに的確に抽出することができる。

（３）前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、（１）又は（２）記載の動画要約自動作成装置。

（３）の構成によれば、動画要約自動作成装置が備える代表画像抽出部は、シーン動画データを構成する画像データからオブジェクトを抽出し、画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出すことができる。

画像データの全体の表示面積、オブジェクトの表示面積、オブジェクトを含む画像データ数、及びシーン動画データを構成する画像データ数は、容易に取得可能な情報である。よって、容易に取得できる画像に関する特定の情報を用いて、一定の算出式に代入するだけで、代表画像を抽出することができる。

（４）前記重要語抽出部は、前記テキストデータに対してＴＦ＊ＩＤＦ法を用いて前記重要語を抽出する、（１）乃至（３）記載の動画要約自動作成装置。

（４）の構成によれば、動画要約自動作成装置が備える重要語抽出部は、テキストデータに対してＴＦ＊ＩＤＦ法を用いて重要語を抽出することができる。よって、特定の場所に偏って出現している言葉を重要語として抽出することができる。

（５）前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、（１）乃至（４）記載の動画要約自動作成装置。

（５）の構成によれば、動画要約自動作成装置が備えるシーン統合部は、シーン動画データごとに作成された動画要約データを、さらに動画データの最初に表示されるように統合することができる。よって、動画の要約（あらすじ）である動画要約データを作成し、動画データの最初に表示されることにより、あらすじをダイジェスト版として、ユーザ最初に見ることができる。

（６）複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成する動画要約自動作成方法であって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、を含む動画要約自動作成方法。

（６）の構成によれば、上記（１）と同様な作用・効果を有する方法を提供することができる。

（７）前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語を抽出するステップは、前記文字データと、前記テキストデータを生成するステップにより生成された前記テキストデータと、から重要語を抽出する、（６）記載の動画要約自動作成方法。

（７）の構成によれば、上記（２）と同様な作用・効果を有する方法を提供することができる。

（８）前記代表画像データを抽出するステップは、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて導き出す、（６）又は（７）記載の動画要約自動作成方法。

（８）の構成によれば、上記（３）と同様な作用・効果を有する方法を提供することができる。

（９）前記重要語を抽出するステップは、前記テキストデータに対してＴＦ＊ＩＤＦ法を用いて前記重要語を抽出する、（６）乃至（８）記載の動画要約自動作成方法。

（９）の構成によれば、上記（４）と同様な作用・効果を有する方法を提供することができる。

（１０）前記動画要約データを作成するステップは、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、（６）乃至（９）記載の動画要約自動作成方法。

（１０）の構成によれば、上記（５）と同様な作用・効果を有する方法を提供することができる。

（１１）複数の画像データにより構成される動画データから、ひとかたまりの前記画像データにより構成されるシーンごとに、自動的に動画の要約を作成させるコンピュータ・プログラムであって、
前記動画データを前記シーンに分割し、分割した前記シーンごとにシーン動画データを抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記テキストデータからキーワードとなる重要語を抽出するステップと、
前記シーン動画データから前記シーンを代表する画像となる代表画像データを抽出するステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して動画要約データを作成するステップと、をコンピュータに実行させるコンピュータ・プログラム。

（１１）の構成によれば、上記（１）と同様な作用・効果を有するコンピュータ・プログラムを提供することができる。

本発明によれば、音声認識を用いて音声データをテキスト化したテキストデータから重要語を抽出し、抽出した重要語と、テキストデータから重要語を抽出するのと同様の考えに基づき抽出した代表画像と、を統合して動画の要約を自動作成する動画要約自動作成装置等を提供することができる。

以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。

［システムの全体構成］
図１は、本発明の好適な実施形態の一例に係るコンピュータ・システム１の全体構成、及びあらすじ作成装置１０の機能構成を示すブロック図である。

本発明のあらすじ作成装置１０は、動画の要約を自動的に作成する装置であって、通信回線３０を介して、ユーザ端末２０と接続されている。ユーザ端末２０は、ＰＣの他、携帯電話機やＰＤＡ等の携帯端末であってもよい。通信回線３０は、例えばインターネットを指す。

この実施例においては、あらすじ作成装置１０は、例えばサーバ等のハードウェアにより実現される。ここで、サーバの物理的な構成はこれに限定されるものではない。あらすじ作成装置１０は、ハードウェアの数に制限はなく、必要に応じて１又は複数で構成してよい。また、あらすじ作成装置１０のハードウェアは、必要に応じてＷｅｂサーバ、ＤＢサーバ、アプリケーションサーバを含んで構成してよく、１台のサーバで構成しても、それぞれ別のサーバで構成してもよい。

あらすじ作成装置１０は、制御部５０を有し、制御部５０は、少なくとも動画データをシーンに分割し、分割したシーンごとにシーン動画データを抽出するシーン抽出部５１、抽出されたシーン動画データに含まれる音声データを認識し、認識した音声データからテキストデータを生成する音声認識部５２、生成されたテキストデータからキーワードとなる重要語を抽出する重要語抽出部５３、シーン動画データからシーンを代表する画像となる代表画像データを抽出する代表画像抽出部５４、及び、抽出された重要語と、抽出された代表画像データと、をシーンごとに統合した動画要約データを作成するシーン統合部５５を備える。

さらに、あらすじ作成装置１０は、記憶部６０を有し、記憶部６０は、少なくとも動画ＤＢ６２、代表画像抽出ＤＢ６４、及びあらすじＤＢ６６を含む。

あらすじ作成装置１０により作成された動画要約データ（あらすじ）は、通信回線３０を介してユーザ端末２０にダウンロードされる。このことにより、通信回線３０に接続されたユーザ端末２０のユーザが、あらすじを見ることができる。また、動画要約データ（あらすじ）をＤＶＤ等のメディアに記憶した上でユーザに配布することで、配布されたメディアをユーザ端末２０等で再生することができる。

［概念図］
図２は、本発明の好適な実施形態の一例に係るあらすじ作成装置１０によりあらすじが作成されるまでの概念図を示したものである。

動画データは、複数の画像データにより構成されている。この画像データは、基本的に映画であれば１秒間に２４コマ（２４個の画像データ）、テレビであれば１秒間に３０コマ（３０個の画像データ）存在する。動画の１秒間のコマ数（画像データ数）は、ＦＰＳ（ＦｒａｍｅＰｅｒＳｅｃｏｎｄ）で表し、数が多い（ＦＰＳの値が大きい）ほど、滑らかな動画となり、その分ファイルサイズが大きくなる。よって、映画は２４ＦＰＳと、テレビは３０ＦＰＳと表記できる。

ここで、複数の画像データの集合である１つの動画データを、あるまとまりのあるシーンごとに分割する。そして、それぞれのシーンについて番号を振る。そのシーンには、音声データ及び画像データが含まれる。音声データは、例えば映像に関するセリフやナレーションであり、音声データからテキストデータを生成する。その後、テキストデータから重要語を抽出する。また、画像データから、代表画像データを抽出する。

シーン１の音声データであるセリフ１からテキスト１を生成し、重要語１を抽出する。また、シーン１の画像データから代表画像１を抽出する。同様に、シーン２、及びシーン３についても同様の処理を行う。

作成された重要語と代表画像とを統合し、あらすじを作成する。その場合、各シーンについてのあらすじを並列に表示してもよいし、シーンごとに場面転換するようにあらすじを表示してもよい。

このように、シーンごとに音声データと画像データとからそれぞれの代表的なデータを抽出し、統合することで、あらすじを作成することが可能となる。

［シーン切り分け例］
図３は、本発明の好適な実施形態の一例に係るあらすじ作成装置１０によりシーンを切り分ける例を示したものである。

図３の右には、動画データの一部である画像データが示されている。図３の（ａ）及び（ｂ）は、うさぎが野原を飛び跳ねている様子を表しており、他方、図３の（ｃ）及び（ｄ）は、人物が家から出てきた様子を表している。この場合、全く異なる画像に切り替わっている。そこで、この図３の（ｂ）と（ｃ）との間がシーンの変わり目であると判断し、図３の左に示すように、（ａ）及び（ｂ）を含む画像データを「シーン１」、（ｃ）及び（ｄ）を含む画像データを「シーン２」としている。

［処理フロー］
図４は、本発明の好適な実施形態の一例に係るメイン処理であるあらすじ作成処理についてのメインフローを示したものである。

先ず、ステップＳ１では、制御部５０は、動画ＤＢ６２に格納された動画データを取出す。その後、制御部５０は、処理をステップＳ２に移す。

ステップＳ２では、制御部５０（シーン抽出部５１）は、ステップＳ１により取り出した動画データを、シーンに分割する。シーン分割処理については後述の図５で説明する。その後、制御部５０は、処理をステップＳ３に移す。

ステップＳ３では、制御部５０は、ステップＳ２で分割したシーンに、順番に番号を振る。その後、制御部５０は、処理をステップＳ４に移す。

ステップＳ４では、制御部５０は、分割したシーンのうち１つのシーン（シーンｉ）を取出す。その後、制御部５０は、処理をステップＳ５に移す。

ステップＳ５では、制御部５０（音声認識部５２）は、取り出したシーンｉの音声データから、音声認識によりテキストデータを生成する。音声認識処理については、後述の図６で説明する。その後、制御部５０は、処理をステップＳ６に移す。

ステップＳ６では、制御部５０（重要語抽出部５３）は、生成されたテキストデータから重要語を抽出する。重要語抽出処理については、後述の図７で説明する。その後、制御部５０は、処理をステップＳ７に移す。

ステップＳ７では、制御部５０（代表画像抽出部５４）は、ステップＳ４で取り出したシーンｉの動画データを構成する複数の画像データから、その動画データを代表する場面である代表画像データを抽出する。代表画像抽出処理については、後述の図８で説明する。その後、制御部５０は、処理をステップＳ８に移す。

ステップＳ８では、制御部５０は、全てのシーンｉについて処理を行ったか否かを判断する。全てのシーンｉについて処理を行った場合（ステップＳ８の処理でＹＥＳが判断される場合）には、制御部５０は、処理をステップＳ９に移す。他方、全てのシーンｉについて未だ処理を行っていない場合（ステップＳ８の処理でＮＯが判断される場合）には、制御部５０は、処理をステップＳ５に移し、処理をしていないシーンｉについて、引き続き処理を行う。

ステップＳ９では、制御部５０（シーン統合部５５）は、シーンｉについて、重要語と代表画像データとをつなぎ合わせ、統合データを作成する。その後、制御部５０は、処理をステップＳ１０に移す。

ステップＳ１０では、制御部５０（シーン統合部５５）は、作成された統合データを順番につなぎ合わせ、あらすじデータを作成し、あらすじＤＢ６６に格納する。その後、制御部５０は、本処理を終了する。

次に図５に基づき、シーン分割処理について説明する。

先ず、ステップＳ２１では、制御部５０（シーン抽出部５１）は、シーンｉの動画データを進める。具体的には、動画データを構成する画像データを順番に送り進めていく。その後、制御部５０（シーン抽出部５１）は、処理をステップＳ２２に移す。

ステップＳ２２では、制御部５０（シーン抽出部５１）は、全く異なる画像に切り替わったか否かを判断する。具体的には、現在の画像データと、その１つ前の画像データとの間に１つも、画像データに含まれる一部を占めるデータである部分画像データが重複していない場合等が該当する。全く異なる画像に切り替わった場合（ステップＳ２２の処理でＹＥＳが判断される場合）には、制御部５０（シーン抽出部５１）は、処理をステップＳ２３に移す。他方、全く異なる画像に切り替わっていない場合（ステップＳ２２の処理でＮＯが判断される場合）には、制御部５０（シーン抽出部５１）は、処理をステップＳ２６に移す。

ステップＳ２３では、制御部５０（シーン抽出部５１）は、全く異なる画像に切り替わった場所の前後で、動画データを分割する。これにより、場面転換の場所で、別シーンとすることができる。その後、制御部５０（シーン抽出部５１）は、処理をステップＳ２４に移す。

ステップＳ２４では、制御部５０（シーン抽出部５１）は、分割した前半の動画データを記憶部６０のＷＫに保存する。ＷＫとは、記憶部６０に有する一時領域を指す。その後、制御部５０（シーン抽出部５１）は、処理をステップＳ２５に移す。

ステップＳ２５では、制御部５０（シーン抽出部５１）は、分割した後半の動画データについて、動画データを進める。その後、制御部５０（シーン抽出部５１）は、処理をステップＳ２２に移す。以降、動画データが終了するまで処理を繰り返す。

他方、ステップＳ２６では、制御部５０（シーン抽出部５１）は、動画データの映像が終了したか否かを判断する。動画データの映像が終了した場合（ステップＳ２６の処理でＹＥＳが判断された場合）には、制御部５０（シーン抽出部５１）は、本処理を終了し、メイン処理に戻る。他方、動画データの映像が終了していない場合（ステップＳ２６の処理でＮＯが判断された場合）には、制御部５０（シーン抽出部５１）は、処理をステップＳ２２に移し、動画データが終了するまで処理を繰り返す。

次に、図６に基づき、音声認識処理について説明する。

先ず、ステップＳ５１では、制御部５０（音声認識部５２）は、シーンｉの動画データから音声データを抽出する。その後、制御部５０（音声認識部５２）は、処理をステップＳ５２に移す。

ステップＳ５２では、制御部５０（音声認識部５２）は、ステップＳ５１で抽出した音声データを入力し、音声データに合致したテキストデータを抽出する。具体的には、音声データの入力に対し、音声データとテキストデータとを関連付けた変換テーブルを利用して、入力された音声データに該当するテキストデータを抽出する。その後、制御部５０（音声認識部５２）は、処理をステップＳ５３に移す。

ステップＳ５３では、制御部５０（音声認識部５２）は、ステップＳ５２により抽出したテキストデータを結合させた文書を生成する。その後、制御部５０（音声認識部５２）は、本処理を終了し、メイン処理に戻る。

次に、図７に基づき、重要語抽出処理について説明する。

先ず、ステップＳ６１では、制御部５０（重要語抽出部５３）は、テキストデータの形態素解析を行う。具体的には、テキストデータを名詞等の品詞に分割する。その後、制御部５０（重要語抽出部５３）は、処理をステップＳ６２に移す。

ステップＳ６２では、制御部５０（重要語抽出部５３）は、ステップＳ６１により解析された結果データを記憶部６０のＷＫに入れる。その後、制御部５０（重要語抽出部５３）は、処理をステップＳ６３に移す。

ステップＳ６３では、制御部５０（重要語抽出部５３）は、ＷＫに入れた結果データから１つのデータを取り出して、ＴＦ＊ＩＤＦ値を算出する。その後、制御部５０（重要語抽出部５３）は、処理をステップＳ６４に移す。

なお、ＴＦ＊ＩＤＦ値とは、ＴＦ−ＩＤＦ法により算出された値であり、ＴＦ（ＴｅｒｍＦｒｅｑｕｅｎｃｙ）という指標と、ＩＤＦ（ＩｎｖｅｒｓｅＤｏｃｕｍｅｎｔＦｒｅｑｕｅｎｃｙ）という指標の２つの指標を用いたアルゴリズムにより算出された値である。この値は、個々のキーワードに対するスコアリングを行うことができるものである。このＴＦ＊ＩＤＦ値が高いものほど、重要なキーワードということになる。

ステップＳ６４では、制御部５０（重要語抽出部５３）は、記憶部６０のＷＫに保存した結果データが空か否かを判断する。ＷＫに保存した結果データについて全て処理を行い空である場合（ステップＳ６４の処理でＹＥＳが判断される場合）には、制御部５０（重要語抽出部５３）は、処理をステップＳ６５に移す。他方。ＷＫに保存した結果データについて全て処理をしておらず、空でない場合（ステップＳ６４の処理でＮＯが判断された場合）には、制御部５０（重要語抽出部５３）は、処理をステップＳ６３に移す。

ステップＳ６５では、制御部５０（重要語抽出部５３）は、ステップＳ６３で算出したＴＦ＊ＩＤＦ値に基づきランク付けを行う。その後、制御部５０（重要語抽出部５３）は、処理をステップＳ６６に移す。

ステップＳ６６では、制御部５０（重要語抽出部５３）は、最上位のデータを重要語として抽出する。その後、制御部５０（重要語抽出部５３）は、本処理を終了し、メイン処理に戻る。

最後に、図８に基づいて、代表画像抽出処理について説明する。

先ず、ステップＳ７１では、制御部５０（代表画像抽出部５４）は、シーンｉの動画データから、１つの画像データを抽出する。その後、制御部５０（代表画像抽出部５４）は、処理をステップＳ７２に移す。

ステップＳ７２では、制御部５０（代表画像抽出部５４）は、抽出した画像データから、部分画像データをさらに抽出し、部分画像データごとに代表画像抽出ＤＢ６４に格納する。その後、制御部５０（代表画像抽出部５４）は、処理をステップＳ７３に移す。

ステップＳ７３では、制御部５０（代表画像抽出部５４）は、ステップＳ７２で抽出し、代表画像抽出ＤＢ６４に格納された部分画像データごとに、面積比を算出する。面積比は、算出された部分画像データの面積から、画像データ全体の面積を除算することにより求められる。その後、制御部５０（代表画像抽出部５４）は、処理をステップＳ７４に移す。

ステップＳ７４では、制御部５０（代表画像抽出部５４）は、ステップＳ７２で抽出された全ての部分画像データについて、面積比を算出する処理を行ったか否かを判断する。制御部５０（代表画像抽出部５４）が、全ての部分画像データについて、面積比の算出処理を行った場合（ステップＳ７４の処理でＹＥＳが判断された場合）には、制御部５０（代表画像抽出部５４）は、処理をステップＳ７５に移す。他方、制御部５０（代表画像抽出部５４）が、全ての部分画像データについて、面積比の算出処理を行っていない場合（ステップＳ７４の処理でＮＯが判断された場合）には、制御部５０（代表画像抽出部５４）は、処理をステップＳ７３に移す。

ステップＳ７５では、制御部５０（代表画像抽出部５４）は、同一の部分画像データが連続した複数のコマ（画像データ）に存在した場合に、そのコマ数（画像データ数）をカウントする。その後、制御部５０（代表画像抽出部５４）は、処理をステップＳ７６に移す。

ステップＳ７６では、制御部５０（代表画像抽出部５４）は、シーンｉの全ての画像データについて処理を行ったか否かを判断する。全ての画像データについて処理を行った場合（ステップＳ７６の処理でＹＥＳが判断された場合）には、制御部５０（代表画像抽出部５４）は、処理をステップＳ７７に移す。他方、全ての画像データについて処理を行っていない場合（ステップＳ７６の処理でＮＯが判断された場合）には、制御部５０（代表画像抽出部５４）は、処理をステップＳ７１に移し、残りの画像データについて、ステップＳ７１からステップＳ７５までの処理を行う。

ステップＳ７７では、制御部５０（代表画像抽出部５４）は、代表画像抽出ＤＢ６４に格納されている部分画像データについてＯＳ＊ｉＩＦ値を算出する。そして、算出したＯＳ＊ｉＩＦ値に基づいて、値の大きい順にランク付けをする。その後、制御部５０（代表画像抽出部５４）は、処理をステップＳ７８に移す。

なお、ＯＳ＊ｉＩＦ値とは、下記の計算式により算出した値である。

ここで、ＯＳ＊ｉＩＦとは、ＯＳ（ＯｊｂｅｃｔＳｐａｃｅ）とｉＩＦ（ｉｎｖｅｒｓｅＩｍａｇｅＦｒｅｑｕｅｎｃｙ）とを乗じたものである。ＯＳは、部分画像データの全体の画像データの面積に占める割合である面積比を指し、Ｎは、シーンｉの動画データが有する全画像データのコマ数（画像データ数）を示す。また、ＩＦは、対象の部分画像データが出現するコマ数（画像データ数）を示す。短時間に表示される面積比の大きい部分画像データは、ＯＳ＊ｉＩＦ値が大きくなる。従って、動画データに含まれる個々の部分画像データのスコアリングを、ＯＳ＊ｉＩＦ値が大きいものを高いスコアとなる本計算式を用いることにより、代表画像データを抽出することができる。

ステップＳ７８では、制御部５０（代表画像抽出部５４）は、ステップＳ７７でランク付けされたＯＳ＊ｉＩＦ値の上位のデータを取得し、これを代表画像データとして抽出する。その後、制御部５０（代表画像抽出部５４）は、本処理を終了し、メイン処理に戻る。

以上、図５から図８にわたって、図４のメイン処理から呼び出されるサブルーチンについて説明したが、これらの処理に限らず、周知の他の方法を用いてよい。

例えば、シーン分割処理に関して、全く異なる画像に切り替わったことを契機として分割処理を行うものとしているが、これに限らず、例えば、カメラを連続的に動かして撮影した動画像の期間中で、移動体の存在の有無を推定し、撮影者が特定の被写体を追尾するためにカメラを動かしたシーンと、別の被写体に視線を移すためにカメラを動かしたシーンとを判別し、別の被写体に視線を移すためにカメラを動かしたものに関して分割処理を行うこととしてもよい。

［あらすじ作成装置１０のハードウェア構成］
図９は、本発明の好適な実施形態の一例に係るあらすじ作成装置１０のハードウェア構成を示す図である。あらすじ作成装置１０は、シーン抽出部５１、音声認識部５２、重要語抽出部５３、代表画像抽出部５４、及びシーン統合部５５を含む、制御部５０を構成するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１０（マルチプロセッサ構成ではＣＰＵ１２０等複数のＣＰＵが追加されてもよい）、バスライン１０５、通信Ｉ／Ｆ１４０、メインメモリ１５０、ＢＩＯＳ（ＢａｓｉｃＩｎｐｕｔＯｕｔｐｕｔＳｙｓｔｅｍ）１６０、ＵＳＢポート１９０、Ｉ／Ｏコントローラ１７０、並びにキーボード及びマウス１８０等の入力手段や表示装置１２２を備える。

Ｉ／Ｏコントローラ１７０には、テープドライブ１７２、ハードディスク１７４、光ディスクドライブ１７６、半導体メモリ１７８、等の記憶部６０を構成する記憶手段を接続することができる。

ＢＩＯＳ１６０は、あらすじ作成装置１０の起動時にＣＰＵ１１０が実行するブートプログラムや、あらすじ作成装置１０のハードウェアに依存するプログラム等を格納する。

ハードディスク１７４は、あらすじ作成装置１０として機能するための各種プログラム及び本発明の機能を実行するプログラムを記憶しており、さらに必要に応じて各種データベースを構成可能である。

光ディスクドライブ１７６としては、例えば、ＤＶＤ−ＲＯＭドライブ、ＣＤ−ＲＯＭドライブ、ＤＶＤ−ＲＡＭドライブ、ＣＤ−ＲＡＭドライブを使用することができる。この場合は各ドライブに対応した光ディスク１７７を使用する。光ディスク１７７から光ディスクドライブ１７６によりプログラム又はデータを読み取り、Ｉ／Ｏコントローラ１７０を介してメインメモリ１５０又はハードディスク１７４に提供することもできる。また、同様にテープドライブ１７２に対応したテープメディア１７１を主としてバックアップのために使用することもできる。

また、あらすじ作成装置１０により作成され、あらすじＤＢ６６に記憶されたあらすじを、光ディスクドライブ１７６を介して光ディスク１７７に書き出すことができる。

あらすじ作成装置１０に提供されるプログラムは、ハードディスク１７４、光ディスク１７７、又はメモリーカード等の記録媒体に格納されて提供される。このプログラムは、Ｉ／Ｏコントローラ１７０を介して、記録媒体から読み出され、又は通信Ｉ／Ｆ１４０を介してダウンロードされることによって、あらすじ作成装置１０にインストールされ実行されてもよい。

上述のプログラムは、内部又は外部の記憶媒体に格納されてもよい。ここで、動画ＤＢ６２、代表画像抽出ＤＢ６４、及びあらすじＤＢ６６を含む記憶部６０を構成する記憶媒体としては、ハードディスク１７４、光ディスク１７７、又はメモリーカードの他に、ＭＤ等の光磁気記録媒体、テープメディア１７１を用いることができる。また、専用通信回線やインターネット等の通信回線に接続されたサーバシステムに設けたハードディスク１７４又は光ディスクライブラリ等の記憶装置を記録媒体として使用し、通信回線を介してプログラムをあらすじ作成装置１０に提供してもよい。

ここで、表示装置１２２は、あらすじ作成装置１０の管理者にデータの入力を受け付ける画面を表示したり、あらすじ作成装置１０による演算処理結果の画面を表示したりするものであり、ブラウン管表示装置（ＣＲＴ）、液晶表示装置（ＬＣＤ）等のディスプレイ装置を含む。

ここで、入力手段は、あらすじ作成装置１０の管理者による入力の受け付けを行うものであり、キーボード及びマウス１８０等により構成してよい。

また、通信Ｉ／Ｆ１４０は、あらすじ作成装置１０を専用ネットワーク又は公共ネットワークを介して端末と接続できるようにするためのネットワーク・アダプタである。通信Ｉ／Ｆ１４０は、モデム、ケーブル・モデム及びイーサネット（登録商標）・アダプタを含んでよい。

以上の例は、あらすじ作成装置１０について主に説明したが、コンピュータに、プログラムをインストールして、そのコンピュータをあらすじ作成装置１０として動作させることにより上記で説明した機能を実現することもできる。従って、本発明において一実施形態として説明したあらすじ作成装置１０により実現される機能は、上述の方法を当該コンピュータにより実行することにより、あるいは、上述のプログラムを当該コンピュータに導入して実行することによっても実現可能である。

以上、本発明の実施形態について説明したが、本発明は上述した実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施例に記載されたものに限定されるものではない。

本発明の好適な実施形態の一例に係るコンピュータ・システムの全体構成及びあらすじ作成装置の機能構成を示す図である。本発明の好適な実施形態の一例に係るあらすじ作成装置によりあらすじが作成されるまでの概念図である。本発明の好適な実施形態の一例に係るあらすじ作成装置によりシーンを切り分ける例を示す図である。本発明の好適な実施形態の一例に係るあらすじ作成処理についてのメインフローを示す図である。本発明の好適な実施形態の一例に係るシーン分割処理についてのフローを示す図である。本発明の好適な実施形態の一例に係る音声認識処理についてのフローを示す図である。本発明の好適な実施形態の一例に係る重要語抽出処理についてのフローを示す図である。本発明の好適な実施形態の一例に係る代表画像抽出処理についてのフローを示す図である。本発明の好適な実施形態の一例に係るあらすじ作成装置のハードウェア構成を示す図である。

符号の説明

１コンピュータ・システム
１０あらすじ作成装置
２０ユーザ端末
３０通信回線
５０制御部
５１シーン抽出部
５２音声認識部
５３重要語抽出部
５４代表画像抽出部
５５シーン統合部
６０記憶部
６２動画ＤＢ
６４代表画像抽出ＤＢ
６６あらすじＤＢ

Claims

複数の画像データと音声データとにより構成された動画データを、ひとかたまりの前記画像データにより構成されるシーン毎に分割し、分割した前記シーンごとの動画データをシーン動画データとして抽出するシーン抽出部と、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成する音声認識部と、
前記シーンごとに、前記生成されたテキストデータから前記シーンの重要語をそれぞれ抽出する重要語抽出部と、
前記シーン動画データに含まれる画像データから前記シーンを代表する画像となる代表画像データを選択し抽出する代表画像抽出部と、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して統合データを作成し、この作成した各シーンの前記統合データを順番につなぎ合わせて動画要約データを作成するシーン統合部と、
を備え、
前記代表画像抽出部は、前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて前記代表画像データを導き出す、動画要約自動作成装置。
前記動画データは、前記画像データと共に文字データをさらに有し、
前記重要語抽出部は、前記文字データと、前記音声認識部により生成された前記テキストデータと、から重要語を抽出する、請求項１記載の動画要約自動作成装置。
前記重要語抽出部は、前記テキストデータに対してＴＦ＊ＩＤＦ法を用いて前記重要語を抽出する、請求項１又は２記載の動画要約自動作成装置。
前記シーン統合部は、前記シーン動画データごとに作成された前記動画要約データを、さらに前記動画データの最初に表示されるように統合する、請求項１乃至３のいずれか１項に記載の動画要約自動作成装置。
複数の画像データと音声データとにより構成された動画データを、ひとかたまりの前記画像データにより構成されるシーン毎に分割し、分割した前記シーンごとの動画データをシーン動画データとして抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記シーンごとに、前記生成されたテキストデータから前記シーンの重要語をそれぞれ抽出するステップと、
前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて、前記シーンを代表する画像となる代表画像データを導き出すステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して統合データを作成し、この作成した各シーンの前記統合データを順番につなぎ合わせて動画要約データを作成するステップと、の全ステップを動画要約自動作成装置が実行する動画要約自動作成方法。
複数の画像データと音声データとにより構成された動画データを、ひとかたまりの前記画像データにより構成されるシーン毎に分割し、分割した前記シーンごとの動画データをシーン動画データとして抽出するステップと、
前記シーン動画データに含まれる音声データを認識し、前記音声データからテキストデータを生成するステップと、
前記シーンごとに、前記生成されたテキストデータから前記シーンの重要語をそれぞれ抽出するステップと、
前記シーン動画データを構成する画像データからオブジェクトを抽出し、前記画像データの全体の表示面積、前記オブジェクトの表示面積、前記オブジェクトを含む画像データ数、及び前記シーン動画データを構成する画像データ数から、所定の計算式で算出した結果を用いて、前記シーンを代表する画像となる代表画像データを導き出すステップと、
前記重要語と、前記代表画像データと、を前記シーンごとに統合して統合データを作成し、この作成した各シーンの前記統合データを順番につなぎ合わせて動画要約データを作成するステップと、
をコンピュータに実行させるためのコンピュータ・プログラム。