JP5243365B2

JP5243365B2 - コンテンツ生成装置，コンテンツ生成方法およびコンテンツ生成プログラム

Info

Publication number: JP5243365B2
Application number: JP2009185434A
Authority: JP
Inventors: 聡嶌田; 明小島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2009-08-10
Filing date: 2009-08-10
Publication date: 2013-07-24
Anticipated expiration: 2029-08-10
Also published as: JP2011040921A

Description

本発明は，ラーニングシステムにおいて教材となるコンテンツを，講師が板書やプロジェクタを用いて講演を行っている様子をカメラで撮影したビデオから自動生成するコンテンツ生成装置や方法に関する。

講演の様子を撮影した講演ビデオから学習に適したコンテンツを生成するためには，講演ビデオからトピック区間を自動検出して，興味ある映像シーンを効率的に閲覧できるようにすることや，重要な情報を少ないデータ量で提示することが重要である。

講演ビデオからのトピック分割を実現する従来技術として，講演用の特定のソフトウェアで講演を行うことを前提として，パソコン（ＰＣ）でスライド操作を行うイベントを特別なソフトウェアで検出し，スライド操作に基づいて講演映像をトピックに分割する方法（非特許文献１参照），講師に各種センサを装着し，講師の動作や発話状態などから講義状態を判別することで，詳細にトピック分割する方法（非特許文献２参照）がある。

また，重要な情報を少ないデータ量で提示するコンテンツを自動生成する方法として，黒板全体が撮影できるように複数のカメラを設置し，それらのカメラ映像を統合することで黒板映像を合成するとともに，講師の領域を抽出して講師映像を生成し，黒板映像の文字や図形をベクトル化することでデータ圧縮して，圧縮した黒板映像と講師映像を同期再生する方法がある（非特許文献３参照）。

山本大介，増田智樹，大平茂輝，長尾確，「映像アノテーションを獲得・管理する講義コンテンツ共有システム」，情報処理学会第７０回全国大会，2008．丸谷宜史，杉本吉隆，角所考，美濃導彦，「講師行動の統計的性質に基づいた講義撮影のための講義状況の認識」，電子情報通信学会論文誌 Vol.J90-D，No.10 ，pp.2775-2786，2007．米川輝，立花綱治，相田達也，若原裕範，岩月正見，「通常教室における講義のデジタルコンテンツ自動作成システムの試作」，メディア教育研究Vol. 1，No. 2 ，pp.83-90，2005．

非特許文献１に記載の従来技術は，講演を行う環境が限定されていること，非特許文献２に記載の従来技術は，特別なセンサを用いていることから適用範囲が限定されることが問題である。また，非特許文献３に記載の従来技術は，黒板ではなくプロジェクタなどを用いて予め用意した資料を講師が提示しながら講演するようなケースに適用することが困難である。

本発明は，これらの問題を解決し，特定の講演方法に限定したり，特別な映像撮影システムやセンサなどを用いたりすることなく，一般的なプロジェクタや黒板などがある環境で講演を行っている様子をカメラ１台で撮影して得られる講演ビデオの画像情報と音声から，重要な情報を少ないデータ量で提示するとともに，利用者が閲覧したいトピックに応じて効率的にアクセスできるコンテンツを自動生成する方法を提供することを目的とする。

本発明では，上記目的を達成するために，１台のカメラで撮影した講演ビデオの画像情報と音声から重要な情報を自動抽出し，それらを効率的に統合してコンテンツを生成する。例えば，講義ビデオから学習教材を作成するような場合，その講義ビデオからスクリーン領域と講師領域とを切り出して，２つを合成して教材映像とする（図３参照）。講義のトピック区間は，スクリーンの切り替わりや講師の移動などで決める。そのトピック区間を映像再生時のインデクスとして提示し，図４で示すようにトピック区間を選択できるようにしておく。音声処理からは，発話連続区間をサブトピック区間として抽出し，サブトピック区間に対してコメントを入力できるようにする。

詳しくは，本発明は，講師が板書またはプロジェクタを用いて講演を行っている様子を１台のカメラで撮影した講演ビデオのみからコンテンツを自動生成するコンテンツ生成装置であって，前記講演ビデオからプロジェクタで投影されたスクリーン領域の画像と，講師が撮像されている講師領域の画像とをそれぞれ抽出する画像領域抽出手段と，前記スクリーン領域の画像と前記講師領域の画像とを重畳して１つの公開用講演ビデオを合成する映像編集手段と，前記スクリーン領域または前記講師領域の画像情報から，利用者が選択する映像再生開始位置を定めるトピック開始点を検出するトピック開始点検出手段と，前記公開用講演ビデオにおける，トピック開始点から次のトピックの開始点までのトピック区間のフレーム画像から，トピック区間の内容を表すトピック画像を検出または生成するトピック画像生成手段と，前記映像編集手段，前記トピック開始点検出手段および前記トピック画像生成手段が出力する情報を統合し，前記公開用講演ビデオを再生表示するときに，トピック区間のリストと各トピックのトピック画像を提示し，利用者が選択したトピックに該当する映像を再生できるようにコンテンツを生成するコンテンツ生成手段とを備えることを特徴とする。

さらに，上記発明において，前記画像領域抽出手段は，前記講演ビデオにおける講師が板書を行っている場合には，書き込んでいる黒板領域を含む領域を講師領域として検出することを特徴とする。

また，上記発明において，前記映像編集手段は，前記スクリーン領域の画像と前記講師
領域の画像とを重畳して１つの公開用講演ビデオを合成するときに，スクリーン領域の画像情報における背景エリアを特定し，背景エリアのスペースと前記講師領域の大きさに基づいてスクリーン領域の画像に講師領域の画像を重畳する位置を動的に決定することを特徴とする。

また，上記発明において，前記講演ビデオに含む音声データから，講師が連続して発話した区間の開始時刻をサブトピック開始点として検出するサブトピック区間検出手段と，前記公開用講演ビデオを再生表示するときに，前記サブトピック開始点と対応付けられた講師発話コメントを提示し，利用者が選択した講師発話コメントに該当するサブトピック開始点からの公開用講演ビデオの再生制御，または，前記講師発話コメントに対して入力された返信コメントを登録する手段とを，さらに備えることを特徴とする。

上記のように本発明によれば，講演ビデオの画像情報と音声から重要な情報を自動抽出し，それらを効率的に統合してコンテンツを生成する手段を有するので，特定の講演方法に限定したり，特別な映像撮影システムやセンサなどを用いたりすることなく，一般的なプロジェクタや黒板などがある環境で講演を行っている様子をカメラ1 台で撮影して得られる講演ビデオの画像情報と音声から，重要な情報を少ないデータ量で提示するとともに，利用者が閲覧したいトピックに対応した映像シーンを再生するので講演映像を効率的に視聴できるコンテンツを自動生成することができる。さらに，講師の発話区間に対応してコメントの登録ができるので，講師の発話内容に基づいた意見交換を容易に行うことができるようになる。

本発明の一実施例における装置の構成例を示す図である。本発明の実施例に係るコンテンツ生成処理フローチャートである。本発明の実施例での入力映像と処理過程映像の例を示す図である。本発明の実施例でのコンテンツ生成の例を示す図である。本発明の実施例でのコンテンツ生成の他の例を示す図である。

以下，本発明の実施の形態を図面を用いて説明する。図１は，本発明の一実施例における装置の構成例を示す図である。コンテンツ生成装置１０は，映像取得部１１，画像領域抽出部１２，映像編集部１３，トピック開始点検出部１４，講師連続発話区間検出部１５，トピック画像生成部１６，コンテンツ生成部１７，コンテンツ再生制御部１８，コメント処理部１９を備える。これらは，ＣＰＵやメモリ等のハードウェアと，ソフトウェアプログラム等によって実現される。また，コンテンツ生成装置１０は，レジスタやメモリや外部記憶装置などの記憶装置で構成される領域映像記憶部２１，公開用講演ビデオ記憶部２２，トピック区間記憶部２３，サブトピック区間記憶部２４，トピック画像記憶部２５，コメント記憶部２６を備える。なお，コンテンツ再生制御部１８，コメント処理部１９，コメント記憶部２６は，コンテンツ生成装置１０とは別の装置として構成することもできる。

映像取得部１１は，講師が板書やプロジェクトを用いて講演を行っている様子をカメラで撮影した講演ビデオを取得し，取得した講演ビデオを画像領域抽出部１２と講師連続発話区間検出部１５にそれぞれ出力する。

画像領域抽出部１２は，映像取得部１１より受け取った講演ビデオから，プロジェクタで投影されたスクリーン領域と講師領域とをそれぞれ抽出し，抽出した各領域の画像を映像編集部１３とトピック開始点検出部１４にそれぞれ出力するため，領域映像記憶部２１に格納する。

スクリーン領域抽出の実施例として，プロジェクタ用のスクリーンには視認性を向上させるために枠をつけることが多いので，画像から直線検出を行い，矩形の候補を求め，予め設定しておいた大きさの許容範囲内の矩形をスクリーン領域とする方法が有効である。講師が用意した資料を液晶モニタなどで表示する場合にも一般的には矩形に基づいてスクリーン領域を検出することができる。さらに，斜め方向から講演ビデオを撮影した場合にはスクリーン領域の画像が歪んでいるので，検出したスクリーンの矩形で向かい合う辺が平行になるようにスクリーン領域にアフィン変換を行う処理を追加すれば見やすい映像を提供することが可能となる。

また，講師領域の抽出は，顔領域の検出や背景画像との差分などで実現できる。さらに，講師が板書を行っている場合には，黒板領域を含む領域を講師領域として検出するようにしておけば，公開用講演ビデオを視聴したときに黒板に記載している内容が分かるようになる。板書を行っているかどうかの判別は，講師のシルエットの形状変化や手に対応する肌色領域の動きベクトルなどを特徴量として，学習アルゴリズムにより動作認識を行う方法などで実現できる。

映像編集部１３は，画像領域抽出部１２から受け取ったスクリーン領域と講師領域の同じ時刻の画像を重畳して１つの公開用講演ビデオを合成する。その合成したビデオをトピック画像生成部１６とコンテンツ生成部１７へ引き渡すため，公開用講演ビデオ記憶部２２に格納する。スクリーン領域と講師領域の合成は，予め設定しておいた位置関係になるように配置する方法や，スクリーン領域の画像情報における背景エリアを特定し，背景エリアのスペースと前記講師領域の大きさに基づいてスクリーン領域に講師領域を重畳する位置を動的に決定する方法が有効である。

トピック開始点検出部１４は，画像領域抽出部１２から受け取ったスクリーン領域または講師領域の画像情報からトピック開始点を検出し，検出したトピック開始点をトピック画像生成部１６とコンテンツ生成部１７に引き渡すため，トピック区間記憶部２３に格納する。

トピック開始点の検出は，スライドを切り替えたところをトピックの開始点として，スクリーン領域の画像内容が時間的に変化した点を検出することで実現できる。ここで，同一スライドの提示時間が設定値より短い場合には，トピック開始点として検出しないことや，同一のスライドの情報を一度に提示しないで，最初は一部のみを提示しておいて，順次追加する形態で提示された場合には，順次追加された時点をサブトピック開始点として検出し，スライド全体が変化した点をトピック開始点として検出する方法，スクリーン領域の画像内容が時間的に変化した時刻の近傍での講師の発話開始点をトピック開始点とする方法などを導入すればより精度よく検出できる。さらに，講師の立つ位置が変化したところをトピック開始点として講師領域の位置が変化したところを検出する方法や，講師の動きが大きい時間帯と小さい時間帯との分岐をトピック開始点として，講師領域内の画像特徴点の動きベクトルの大きさによりトピック開始点を検出する方法なども有効である。なお，トピックを階層的に扱う場合には，下位のサブトピックを講師連続発話区間検出部１５で検出するサブトピックと同様に管理すればよい。

講師連続発話区間検出部１５は，映像取得部１１から講演ビデオを受け取ると，講師が時間的に連続して発声している区間を検出し，連続して発話した区間の開始時刻をサブトピック開始点として，サブトピック区間の情報をサブトピック区間記憶部２４に格納し，コンテンツ生成部１７に出力する。

トピック画像生成部１６は，映像編集部１３から公開用講演ビデオ記憶部２２に格納された公開用講演ビデオを受け取り，トピック開始点検出部１４からトピック区間記憶部２３に格納されたトピック区間を受け取ると，トピック区間の内容をよく表す画像をトピック画像として検出し，各トピック区間から検出したトピック画像をトピック画像記憶部２５に格納してコンテンツ生成部１７に出力する。トピック画像は，映像編集部１３から受け取った公開用講演ビデオのトピック開始点におけるフレーム画像とする方法や，正面顔を検出してトピック区間内で講師が正面を向いているときのフレーム画像とする方法が有効である。また，従来技術として，映像シーンの代表画像を選択もしくは生成する各種の方法が知られているので，そのような従来技術を用いて，トピック区間の代表画像を選択・生成し，それをトピック画像としてもよい。

コンテンツ生成部１７は，映像編集部１３から公開用講演ビデオ記憶部２２に格納された公開用講演ビデオを受け取り，トピック開始点検出部１４からトピック区間記憶部２３に格納されたトピック区間を受け取り，トピック画像生成部１６からトピック画像記憶部２５に格納されたトピック画像を受け取り，講師連続発話区間検出部１５からサブトピック区間記憶部２４に格納されたサブトピック区間をそれぞれ受け取ると，これらの情報を統合してコンテンツを生成する。

コンテンツ再生制御部１８は，コンテンツ生成部１７によって生成されたコンテンツを利用者装置に再生出力する。特に，コンテンツ再生制御部１８は，公開用講演ビデオのコンテンツを再生表示するときに，トピック区間のリストと各トピックのトピック画像を提示し，利用者が選択したトピックに該当する映像を再生する制御を行う。

さらに，コンテンツ再生制御部１８は，コメント処理部１９によって管理されている講師発話のコメントおよび利用者からのコメントに対する返信などの利用者装置への表示を，公開用講演ビデオの再生表示とともに行う。コメント記憶部２６には，講師の発話区間であるサブトピックに対応する講師発話コメント（サブトピックタイトル）が自動登録され，また，利用者からのコメントに対する返信情報もコメント処理部１９によって登録される。

すなわち，コンテンツ再生制御部１８は，公開用講演ビデオを再生表示するときに，サブトピック開始点と対応付けた講師発話というコメントを利用者装置に出力して提示し，利用者が講師発話コメントを選択すると，該当するサブトピック開始点からの公開用講演ビデオを再生する制御を行う。また，利用者が利用者装置の画面において講師発話コメントに返信コメントを書き込むと，その入力情報がコメント処理部１９へ送られ，コメント記憶部２６に記憶される。このコメント処理部１９の機能は，例えば従来技術として知られている掲示板機能によって実現することができる。

図２は，本発明の実施例に係るコンテンツ生成処理フローチャートである。図３は，本発明の実施例での入力映像と処理過程映像の例を示す図である。以下，図２に従って，講演ビデオの例を基に各部の動作について説明する。

まず，ステップＳ１では，映像取得部１１が，講演ビデオの映像を読み取る。ステップＳ２では，画像領域抽出部１２が，映像取得部１１により取得した映像からスクリーン領域を抽出する。図３（ａ）は，ハイビジョンカメラで撮影した講演ビデオの例を示している。この講演ビデオの映像から画像領域抽出部１２がスクリーン領域を抽出した例を，図３（ｂ）に示す。ここでは，画像領域抽出部１２が講演ビデオからスクリーン領域を切り出した後，向かい合う辺が平行になるように，アフィン変換を用いて補正している。講演映像をハイビジョンカメラで高解像度に撮影しておけば，切り出したスクリーン領域の図形や文字情報を読み取ることができる。

ステップＳ３では，画像領域抽出部１２が講演ビデオの映像から講師領域を抽出する。図３（ａ）の講演映像から講師領域を抽出した例を，図３（ｃ）に示す。このような講師領域の抽出は，例えば顔領域の検出や背景画像との差分などで実現できる。

ステップＳ４では，映像編集部１３により公開用講演ビデオを生成する。スクリーン領域の左下に固定のサイズで講師領域を重畳するよう設定した場合の生成例を，図３（ｄ）に示す。また，講師領域のいずれかの辺がスクリーン領域の辺と重なり，かつ，講師領域がスクリーン領域の背景からはみ出ないように講師領域の大きさと位置をずらしたときに，講師領域が最大となるように動的に生成した場合の例を，図３（ｅ）に示す。

また，公開用講演ビデオの第３の例を図３（ｆ）に示す。同図では，スクリーン領域の横に講師領域を配置するとともに，現在再生表示しているシーンの位置づけがわかるように，映像全体の中での再生時刻の割合を棒グラフで“ｔｉｍｅｌｉｎｅ”として提示したり，再生されているスライドが全体の何番目であるかを示したり（同図では全スライド１０枚の中の４枚目を示す），同一スライドが提示されている区間の中で，現在の再生時刻の割合を棒グラフで示したり，前後のスライドの内容を表すトピック画像を示したりしている。

ステップＳ５では，トピック開始点検出部１４が，スクリーン領域の画像内容が時間的に変化した点，講師の発話開始点，講師の動きが大きく変化した点などからトピック開始点を検出する。

ステップＳ６では，トピック画像生成部１６が，映像編集部１３から受け取った公開用講演ビデオと，トピック開始点検出部１４から受け取ったトピック区間とから，トピック区間の内容をよく表す画像をトピック画像として検出する。

ステップＳ７では，講師連続発話区間検出部１５が，講師が時間的に連続して発話した区間の開始時刻をサブトピック開始点として検出する。

ステップＳ８では，コンテンツ生成部１７がコンテンツを生成する。コンテンツ生成の第１の例を図４に示す。この第１の例は，コンテンツ再生制御部１８によって公開用講演ビデオを再生表示するときに，トピック区間のリストと各トピックのトピック画像を提示し，利用者が選択したトピック区間をランダムに再生開始できるようにＷｅｂコンテンツを生成した例である。

図４の例において，３０は公開用講演ビデオを再生する公開用講演映像再生画面である。このビデオ再生画面の下にトピック区間を現すトピック区間提示バー３１を提示する。このトピック区間提示バー３１上で，あるトピック区間にマウスオーバーすると該当のトピック画像３２が提示される。また，トピック区間提示バー３１上のトピック区間をマウスでクリックすると該当のトピックの開始点の公開用講演ビデオが，公開用講演映像再生画面３０に頭出し再生される。このようなコンテンツを利用する視聴者は，重要なスライド情報を目視で確認したり，講師の表情を見たり，トピック画像３２で講演内容を概観しながら見たいシーンを選択したりすることが容易に行える。

また，コンテンツ生成の第２の例として，映像シーンに掲示板機能を連携させ，映像にコメントを登録できるようにした場合のコンテンツ生成例を図５に示す。同図では，講師の発話区間であるサブトピックに対応するコメントを講師発話コメントとして自動登録し，右側の画面に示すように，講師発話コメントを表すサブトピックのタイトル４０の一覧を表示する。

この講師発話コメントは，講師が話した内容を示すものではなく，単に講師連続発話区間検出部１５により検出した何番目のサブトピックかを示すようなものでよい。図５の例では，サブトピックのタイトル４０として「ｓｐｅａｋｅｒｔｏｐｉｃ２」というタイトルを自動付与しており，次のサブトピックには，「ｓｐｅａｋｅｒｔｏｐｉｃ３」というタイトルを付与することになる。

さらに進んだタイトルの付与方法として，講師連続発話区間検出部１５において入力音声の周波数分析を行うことなどにより，サブトピック区間において講師が発話しているのか，受講者が発話しているのかの話者の識別を行い，話者の識別結果により，「講師トピックｎ」（ｎ：シーケンス番号），「受講者トピックｍ」（ｍ：シーケンス番号）などのタイトルを自動付与して登録する方法を用いてもよい。この場合の話者識別では，必ずしも特定の話者を認識する必要はなく，一番多く発話するのが講師であることが明らかであるので，全体の発話回数や発話の長さから，単に各サブトピックごとに講師の発話か講師以外の発話かを区別できるような周波数分析による識別で十分である。

図５に示す画面において，利用者がサブトピックのタイトル４０をクリックして講師発話コメントを選択すると，コンテンツ再生制御部１８は，該当するサブトピック開始点から公開用講演ビデオを公開用講演映像再生画面３０に頭出し再生する。このとき，利用者はコメントへの返信機能を用い，返信記入欄４１に意見・質問等を書き込むことにより，講師発話コメントに返信することもできる構成になっている。このようなコンテンツを利用する視聴者は，講師の発話区間単位で講演ビデオを視聴したり，掲示板機能を用いて講師の発話内容に基づいた意見交換を行ったりすることが容易となる。

なお，講師発話コメントに対して掲示板機能を用いて意見を書き込み，意見交換を行うための技術は，Ｗｅｂ技術などの一般に知られている既知の技術を用いて実現することができるので，ここでのさらに詳しい説明は省略する。

以上のコンテンツ生成の処理は，コンピュータとソフトウェアプログラムとによって実現することができ，そのプログラムをコンピュータ読み取り可能な記録媒体に記録することも，ネットワークを通して提供することも可能である。

１０コンテンツ生成装置
１１映像取得部
１２画像領域抽出部
１３映像編集部
１４トピック開始点検出部
１５講師連続発話区間検出部
１６トピック画像生成部
１７コンテンツ生成部
１８コンテンツ再生制御部
１９コメント処理部
２１領域映像記憶部
２２公開用講演ビデオ記憶部
２３トピック区間記憶部
２４サブトピック区間記憶部
２５トピック画像記憶部
２６コメント記憶部

Claims

講師が板書またはプロジェクタを用いて講演を行っている様子を１台のカメラで撮影した講演ビデオのみからコンテンツを自動生成するコンテンツ生成装置であって，
前記講演ビデオからプロジェクタで投影されたスクリーン領域の画像と，講師が撮像されている講師領域の画像とをそれぞれ抽出する画像領域抽出手段と，
前記スクリーン領域の画像と前記講師領域の画像とを重畳して１つの公開用講演ビデオを合成する映像編集手段と，
前記スクリーン領域または前記講師領域の画像情報から，利用者が選択する映像再生開始位置を定めるトピック開始点を検出するトピック開始点検出手段と，
前記公開用講演ビデオにおける，トピック開始点から次のトピックの開始点までのトピック区間のフレーム画像から，トピック区間の内容を表すトピック画像を検出または生成するトピック画像生成手段と，
前記映像編集手段，前記トピック開始点検出手段および前記トピック画像生成手段が出力する情報を統合し，前記公開用講演ビデオを再生表示するときに，トピック区間のリストと各トピックのトピック画像を提示し，利用者が選択したトピックに該当する映像を再生できるようにコンテンツを生成するコンテンツ生成手段とを備える
ことを特徴とするコンテンツ生成装置。
前記画像領域抽出手段は，
さらに，スクリーン領域の画像と講師領域の画像とを，元の講演ビデオの画像より少ない画素数で抽出する
ことを特徴とする請求項１に記載のコンテンツ生成装置。
前記画像領域抽出手段は，
さらに，検出したスクリーン領域の矩形で向かい合う辺が平行になるようにスクリーン領域の画像にアフィン変換を行う
ことを特徴とする請求項１または請求項２に記載のコンテンツ生成装置。
前記画像領域抽出手段は，
前記講演ビデオにおける講師が板書を行っている場合には，書き込んでいる黒板領域を含む領域を講師領域として検出する
ことを特徴とする請求項１から請求項３までのいずれか１項に記載のコンテンツ生成装置。
前記映像編集手段は，
前記スクリーン領域の画像と前記講師領域の画像とを重畳して１つの公開用講演ビデオを合成するときに，スクリーン領域の画像情報における背景エリアを特定し，背景エリアのスペースと前記講師領域の大きさに基づいてスクリーン領域の画像に講師領域の画像を重畳する位置を動的に決定する
ことを特徴とする請求項１から請求項４までのいずれか１項に記載のコンテンツ生成装置。
前記講演ビデオに含む音声データから，講師が連続して発話した区間の開始時刻をサブトピック開始点として検出するサブトピック区間検出手段と，
前記公開用講演ビデオを再生表示するときに，前記サブトピック開始点と対応付けられた講師発話コメントを提示し，利用者が選択した講師発話コメントに該当するサブトピック開始点からの公開用講演ビデオの再生制御，または，前記講師発話コメントに対して入力された返信コメントを登録する手段とを，さらに備える
ことを特徴とする請求項１から請求項５までのいずれか１項に記載のコンテンツ生成装置。
講師が板書またはプロジェクタを用いて講演を行っている様子を１台のカメラで撮影した講演ビデオのみから，コンテンツ生成装置がコンテンツを自動生成するコンテンツ生成方法であって，
前記講演ビデオからプロジェクタで投影されたスクリーン領域の画像と，講師が撮像されている講師領域の画像とをそれぞれ抽出する画像領域抽出ステップと，
前記スクリーン領域の画像と前記講師領域の画像とを重畳して１つの公開用講演ビデオを合成する映像編集ステップと，
前記スクリーン領域または前記講師領域の画像情報から，利用者が選択する映像再生開始位置を定めるトピック開始点を検出するトピック開始点検出ステップと，
前記公開用講演ビデオにおける，トピック開始点から次のトピックの開始点までのトピック区間のフレーム画像から，トピック区間の内容を表すトピック画像を検出または生成するトピック画像生成ステップと，
前記映像編集ステップ，前記トピック開始点検出ステップおよび前記トピック画像生成ステップにより出力される情報を統合し，前記公開用講演ビデオを再生表示するときに，トピック区間のリストと各トピックのトピック画像を提示し，利用者が選択したトピックに該当する映像を再生できるようにコンテンツを生成するコンテンツ生成ステップとを有する
ことを特徴とするコンテンツ生成方法。
コンピュータを，請求項１から請求項６までのいずれか１項に記載のコンテンツ生成装置が備える各手段として機能させるためのコンテンツ生成プログラム。