JP2006195900A

JP2006195900A - マルチメディアコンテンツ生成装置及び方法

Info

Publication number: JP2006195900A
Application number: JP2005009324A
Authority: JP
Inventors: Yoshio Niizaki; 義雄新崎
Original assignee: Matsushita Electric Industrial Co Ltd
Current assignee: Panasonic Holdings Corp
Priority date: 2005-01-17
Filing date: 2005-01-17
Publication date: 2006-07-27

Abstract

【課題】効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供すること。
【解決手段】講義ドキュメント１０７内の文章からキーワードを抽出する文字認識手段１１１と、講師映像の音声データから上記抽出キーワードが発声されている箇所を探し出す音声認識手段１１３と、上記キーワードと映像中における発生箇所の対応をマルチメディアコンテンツ内に索引ページとして生成する索引構築手段１１５とを設ける。
【選択図】図１

Description

本発明は、電子教育（e-learning）等で使用されるマルチメディアコンテンツを生成するためのマルチメディアコンテンツ生成装置に関するものである。

従来のマルチメディアコンテンツ生成装置として、例えば、松下電器産業（株）の「講義自動収録システム」が挙げられる。この講義自動収録システムでは、マイクロソフトコーポレイションのＰｏｗｅｒＰｏｉｎｔ（登録商標）を使用した講義向けに作られており、ＰｏｗｅｒＰｏｉｎｔ（登録商標）のページ単位で講義映像に対する索引付けが行われている。生成されるＳＭＩＬ（Synchronized Multimedia Integration Language）コンテンツ上にはＰｏｗｅｒＰｏｉｎｔ（登録商標）のページの一覧がリンク表示され、それを選択するとＰｏｗｅｒＰｏｉｎｔ（登録商標）をそのページに切り替えたタイミングの映像が再生される仕組みとなっている（非特許文献１参照）。

また、映像内容を元に索引付けを行うものとして、（株）ケイディーディーアイ研究所の「PreviewNavigator（登録商標） for Real」がある。これは、映像をシーン分割したりテロップの検出を行い、シーン単位やテロップ出現単位で索引付けを行っている（非特許文献２参照）。

映像に含まれる音声に基づく索引付け技術として、例えば、特許文献１、特許文献２が挙げられる。特許文献１には、音声認識の結果抽出したキーワードを映像のタイトルとして付すものが開示されている。また、特許文献２には、音声認識の結果抽出したキーワードからインターネットやＤＢへアクセスする為の検索命令文を生成し、映像のキーワードに関する情報を取得するものが開示されている。

特開２００２−１７１４８１号公報特開平１１−２５００６８号公報「講義自動収録システム」、［online］、平成１５年、松下電器産業（株）、［平成１６年１０月２０日検索］、インターネット＜URL：http://www.e3.panasonic.co.jp/el_product/model_p/index.html＞「Preview Navigator（登録商標） for Real」、［online］、（株）ケイディーディーアイ研究所、［平成１６年１０月２０日検索］、インターネット＜URL：http://avs.kddlabs.co.jp/pn/body.html＞

しかしながら、上記従来のマルチメディアコンテンツ生成装置におけるページ単位での索引付けでは、知りたい内容を即座に特定するための検索手段が提供されておらず、講義内容を知らない場合は、１ページずつＰｏｗｅｒＰｏｉｎｔ（登録商標）から生成した静止画部分を参照することになり、簡単に探し出せないという問題があった。マルチメディアコンテンツを手作業で編集することにより、キーワード検索するための索引画面を追加することは可能であるが、その手間は大きい。

また、e-Learningの分野で撮影する講師映像についてはシーンの変化と講義内容とは密接な関係が無く、シーン単位の索引付けは意味を持たない場合がある。映像よりも講師の話している音声に基づく索引付けが重要となる。

さらに、講義映像と講義内容とをキーワードに関連付けて表示することもできなかった。

本発明は、上記従来の事情に鑑みてなされたものであって、効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供することを目的とする。

本発明は、講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成装置であって、前記講義資料に含まれる文章からキーワードを抽出する文字認識手段と、前記講義映像に含まれる音声データから抽出された前記キーワードが発声されている箇所を探索する音声認識手段と、前記キーワードと前記講義映像中の前記キーワードの発声箇所とを対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成する索引構築手段と、を備える。

この構成により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。

また、本発明のマルチメディアコンテンツ生成装置は、前記文字認識手段により抽出されるキーワードを提供するキーワード提供手段を更に備える。

この構成により、講義資料には含まれていないキーワードを索引項目として追加することができる。

また、本発明のマルチメディアコンテンツ生成装置は、前記講義資料内における、前記音声認識手段により認識されたキーワードに対応する部分に、前記講義映像の発声箇所と対応付けるリンク情報を埋め込むリンク情報埋め込み手段を更に備える。

この構成により、再生中の各ページ内でもキーワードによる検索が可能となる。

前記講義映像内においてキーワードが発声された箇所における前記講義資料のページを検出し、前記キーワードと前記講義資料のページの開始時刻とを対応付ける表示開始時刻情報生成手段を更に備える。

この構成により、キーワードを発声しているページの先頭からの再生が可能となる。

また、本発明のマルチメディアコンテンツ生成装置は、キーワード、前記キーワードが発声されている講義映像及び前記キーワードを含む講義資料を一体として表示する表示手段を備える。

この構成により、キーワードに関するマルチメディアコンテンツを一体として閲覧することができる。

本発明は、コンピュータを上記の各手段として機能させるマルチメディアコンテンツ生成プログラムを提供する。

このプログラムにより、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。

本発明は、コンピュータを上記の各手段として機能させるプログラムとして記録したコンピュータにより読み取り可能な記録媒体を提供する。

この記録媒体により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。

本発明のマルチメディアコンテンツ生成方法は、講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成方法であって、前記講義資料に含まれる文章からキーワードを抽出するステップと、前記講義映像に含まれる音声データから前記抽出されたキーワードが発声されている箇所を探索するステップと、前記キーワードに前記講義映像中における前記キーワードの発声箇所を対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成するステップと、を有する。

この方法により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。

本発明によれば、効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供することができる。

（第１の実施の形態）
以下、本発明の実施の形態のマルチメディアコンテンツ生成装置について、図面を用いて説明する。本発明の実施形態では、マルチメディアコンテンツの一例として、講義資料及び講義映像を同期して再生可能なものを例にとって説明する。

本発明の第１の実施の形態のマルチメディアコンテンツ生成装置を図１に示す。

図１において、マルチメディアコンテンツ生成装置１０４は、操作信号受信部１０５と、静止画変換部１０８と、ドキュメント切替データベース（以下、ドキュメント切替ＤＢ）１０６と、映像変換部１１８と、コンテンツ生成部１１６と、索引エンジン１１０とを備える。生成されるマルチメディアコンテンツは、講師映像と講義資料の静止画像を同期させた形で再生するコンテンツであり、ＳＭＩＬ（Synchronized Multimedia Integration Language）やＨＴＭＬ＋ＴＩＭＥ等の言語記述により実現される。

索引構築エンジン１１０は索引画面を構築するものであり、文字認識部１１１と、抽出キーワードデータベース（以下、抽出キーワードＤＢ）１１２と、音声認識部１１３と、音声認識結果データベース（以下、音声認識結果ＤＢ）１１４と、索引構築部１１５とを備える。

マルチメディアコンテンツ生成装置１０４は、マルチメディアコンテンツ生成装置１０４を操作するためのキーボードやマウスといった入力装置１０１、講師映像を撮影するための映像撮影装置１０２、講義の説明用資料である講義ドキュメント１０７をスクリーンに映し出すプロジェクタ等のドキュメント投影装置１０３と接続されている。

操作信号受信部１０５は、入力装置１０１から送られてくる講義資料のページ切替のタイミング情報をページ切替信号としてドキュメント切替ＤＢ１０６に出力する。また、入力装置１０１からの信号に基づき、各処理部に対して処理開始の信号を送信する。

静止画変換部１０８は、講義ドキュメント１０７をページ単位で静止画像ファイル１０９に変換する。

文字認識部１１１は、講義ドキュメント１０７からキーワードを抽出し、抽出キーワードＤＢ１１２へ抽出結果を格納する。

音声認識部１１３は、映像撮影装置１０２から入力された音声信号に対して、抽出キーワードＤＢ１１２に登録されているキーワードの発声箇所を抽出し、抽出結果を音声認識結果ＤＢ１１４に出力する。

索引構築部１１５は、音声認識結果ＤＢ１１４に格納されている情報からキーワードとその発声箇所をリンク付けした索引画面を構築する。

コンテンツ生成部１１６は、上記で構築した索引画面に加え、静止画像ファイル１０９、映像ファイル１１９、ドキュメント切替ＤＢ１０６の情報を元に、マルチメディアコンテンツ１１７を生成する。

映像変換部１１８は、映像撮影装置１０２から入力された映像信号をマルチメディアコンテンツ１１７内で使用できるフォーマットの映像ファイル１１９に変換する。

なお、マルチメディアコンテンツ装置１０４は単体ＰＣで構成することも可能であるし、各処理部の入出力データをネットワーク経由で共有することで複数台のＰＣに分けた構成にすることも可能である。また、マルチメディアコンテンツ生成装置１０４は、不図示の時計を有しており、各構成部が時刻情報として使用する。

図２は、抽出キーワードＤＢ１１２、音声認識結果ＤＢ１１４、及びドキュメント切替ＤＢ１０６のレコード構成を示す。

図２（ａ）に示すように、抽出キーワードＤＢ１１２には、キーワード２０１、振り仮名２０２、表示位置座標２０３を講義ドキュメント１０７のページ単位で格納する。

キーワード２０１は、文字認識部１１１で抽出したキーワードである。振り仮名２０２は、キーワード２０１の読みであり、文字認識部１１１内で行う形態素解析の結果が出力される。表示位置座標２０３は、キーワード２０１の講義ドキュメント１０７内における表示位置であり、ページ単位で算出した座標値である。

図２（ｂ）に示すように、音声認識結果ＤＢ１１４には、検出キーワード２２１、発声時刻２２２を格納する。

検出キーワード２２１は、抽出キーワードＤＢ１１２に登録されているキーワード２０１の中で、音声認識部１１３により音声信号内から検出できたキーワードである。発声時刻２２２は、検出キーワード２２１を発声している時刻であり、時刻は不図示の時計から得られる。

図２（ｃ）に示すように、ドキュメント切替ＤＢ１０６には、ページ番号２４１、表示開始時刻２４２、表示終了時刻２４３、静止画像ファイル名２４４を格納する。

ページ番号２４１は、講義ドキュメント１０７のページ番号である。表示開始時刻２４２は、講義ドキュメント１０７を該当ページへ切り替えた時刻である。表示終了時刻２４３は、講義ドキュメント１０７を該当ページから次のページへ切り替えた時刻である。静止画像ファイル名２４４は、該当ページを静止画変換部１０８で生成した静止画像ファイル名である。

以上のように構成されたマルチメディアコンテンツ生成装置１０４について、図３〜図６を用いてその動作を説明する。処理は、講義収録前の事前準備処理、講義収録中の処理、講義収録後の後処理に分かれる。

図３は、文字認識部の動作説明のための、フロー図である。講義収録前の事前準備処理では、索引ページに一覧表示するキーワードを講義ドキュメント１０７から抽出する。まず、入力装置１０１から文字認識部１１１を起動し、対象となる講義ドキュメント１０７を指定する。

文字認識部１１１は、まず講義ドキュメント１０７内のテキストを検出する（ステップ３０１）。検出は、マイクロソフトコーポレイションのＯｆｆｉｃｅ（登録商標）系のドキュメントの場合は、Ｏｆｆｉｃｅ用ＡＰＩ（Application Program Interface）を使用することで実現できる。また、他の電子化ドキュメントについては光学的に文字認識を行うＯＣＲ（Optical Character Recognition）エンジンを利用することで可能となる。ＯＣＲエンジンでサポートしていないフォーマットのドキュメントについては、ドキュメントをページ単位で静止画に変換した上で、ＯＣＲエンジンを使用することで実現できる。

検出したテキストデータは、形態素解析を施し品詞による分類（ステップ３０２）と振り仮名付け（ステップ３０３）を行う。次に、名詞として分類されたテキストをキーワードとして抽出し（ステップ３０４）、その表示位置座標を取得する（ステップ３０５）。表示位置座標の取得にも上記Ｏｆｆｉｃｅ（登録商標）用ＡＰＩやＯＣＲエンジンを使用する。最後に以上の処理により抽出した、キーワード２０１、振り仮名２０２、表示位置座標２０３を抽出キーワードＤＢ１１２に格納する（ステップ３０６）。

なお、上記の例では名詞として分類したテキストデータをキーワードとして抽出しているが、形容詞＋名詞などのパターンについてもキーワードとして扱うことができる。この場合、キーワードとして扱うべき品詞の組み合わせ条件を定めておき、その条件を満たす場合はキーワードとして判断する。

図５は、操作信号受信部の動作説明のためのフロー図であり、図５（ａ）は収録開始信号受信時、図５（ｂ）はページ切替信号受信時、図５（ｃ）は収録終了信号受信時をそれぞれ示す。

講義収録中の処理は、入力装置１０１を用いて収録開始の信号を操作信号受信部１０５に対して送信することから始まる。収録中は、講義ドキュメント１０７をプロジェクタ等のドキュメント投影装置１０３を用いてスクリーンに映し出すための操作を行う。講義ドキュメント１０７がＰｏｗｅｒＰｏｉｎｔ（登録商標）の場合を例にとると、スライドショーを起動させ、マウスやキーボード操作でページを切り替える。この時、講義ドキュメント１０７のページ切替操作の信号を操作信号受信部１０５で逐次検知する。収録の終了は、入力装置１０１を用いて収録終了の信号を操作信号受信部１０５に対して送信することで行う。

図５（ａ）に示すように、操作信号受信部１０５は、収録開始信号を受信すると（ステップ５０１）、音声認識部１１３と映像変換部１１８に収録開始信号を送信する（ステップ５０２、５０３）。次に、静止画変換部１０８に１枚目のページの静止画生成を要求し（ステップ５０４）、生成された静止画ファイル名と収録開始信号を受信した時刻とを、それぞれドキュメント切替ＤＢ１０６の１ページ目の静止画ファイル名２４４と表示開始時刻２４２とに格納する（ステップ５０５）。

なお、上記の例では収録開始時点で講義ドキュメント１０７の１枚目が表示されていることを前提としているが、収録開始と講義ドキュメント１０７の１枚目の表示のタイミングをずらして運用することも可能である。この場合、収録開始時点では静止画変換部１０８に対する静止画生成要求以降の操作を行わず、講義ドキュメント１０７の１枚目の表示を入力装置１０１から送信し、操作信号受信部１０５はその信号をページ切替信号として扱うことで実現できる。

図５（ｂ）に示すように、操作信号受信部１０５は、ページ切替信号を受信すると（ステップ５２１）、ドキュメント切替ＤＢ１０６を更新する（ステップ５２２）。すなわち、ページ切替信号を受信した時刻を表示終了時刻２４３に格納し、新たなレコード（ページ番号２４１、表示開始時刻２４２、表示終了時刻２４３、静止画像ファイル名２４４を有して構成される）を追加し、ページ番号２４１に切替先のページ番号を格納する。次に、静止画変換部１０８に切替先のページの静止画生成を要求する（ステップ５２３）。そして、生成された静止画ファイル名を、静止画ファイル名２４４として、ページ切替信号を受信した時刻を表示開始時刻２４２として、ドキュメント切替ＤＢ１０６の上記で追加したレコードに格納する（ステップ５２４）。

図５（ｃ）に示すように、操作信号受信部１０５は、収録終了信号を受信すると（ステップ５４１）、ドキュメント切替ＤＢ１０６の表示終了時刻２４３に、収録終了の信号を受信した時刻を収録終了時刻として格納する（ステップ５４２）。次に、音声認識部１１３と映像変換部１１８に対して収録終了信号を送信し（ステップ５４３、５４４）、索引構築部１１５に対して後処理開始信号を送信する（ステップ５４５）。

図４は、音声認識部の動作説明のためのフロー図である。音声認識部１１３は操作信号受信部１０５から収録開始信号を受信することで処理を開始する（ステップ４０１）。抽出キーワードＤＢ１１２の振り仮名２０２情報を元に（ステップ４０２）、映像撮影装置１０２から入力される音声信号に対して音声認識を施し、振り仮名の語句の発声時刻を検出する（ステップ４０３）。この検出方法はキーワードスポッティングと呼ばれており、音声認識の一技術として広く知られている。検出結果は音声認識結果ＤＢ１１４に格納する（ステップ４０４）。検出キーワード２２１には抽出キーワードＤＢ１１２のキーワード２０１を格納し、発声時刻２２２には上記音声の発声時刻を格納する。複数回発声した場合は、１つの検出キーワード２２１につき複数の発声時刻２２２を記録する。以上の処理を操作信号受信部１０５から収録終了信号が送信されるまで繰り返す（ステップ４０５）。

映像変換部１１８は、映像撮影装置１０２から入力される映像信号をマルチメディアコンテンツ１１７として使用可能なフォーマットにリアルタイム変換を行いながら映像ファイル１１９として出力する。

図６は、索引構築部の動作説明のためのフロー図である。講義収録後の後処理は、索引構築部１１５が操作信号受信部１０５から後処理開始信号を受信した段階から始まる（ステップ６０１）。

索引構築部１１５は、音声認識結果ＤＢ１１４の検出キーワード２２１を元に、キーワードの一覧ページを生成する（ステップ６０２、６０３）。一覧ページ内の各キーワードは、音声認識結果ＤＢ１１４の発声時刻と関連付けられており、キーワードを選択することで音声認識結果ＤＢ１１４の発声時刻２２２をもとに映像ファイル１１９を再生することができる（ステップ６０４）。このページの記述にはSMILやHTML+TIMEといった言語により実現可能である。キーワードの表示は、発声時刻順、キーワードの五十音順など、抽出キーワードＤＢ１１２、音声認識結果ＤＢ１１４に格納された情報から実現可能な組み合わせを使用する。また、発声箇所が複数存在する場合は、キーワードを選択する形ではなく、キーワードの下にその個数分の選択手段を設けることで実現する。キーワード一覧ページ生成後、コンテンツ生成部１１６に処理開始信号を送信する（ステップ６０５）。

コンテンツ生成部１１６は、静止画像ファイル１０９、映像ファイル１１９、ドキュメント切替ＤＢ１０６、索引構築部１１５で生成したキーワード一覧ページを元にマルチメディアコンテンツ１１７を生成する。

図７に上記手順により作成したマルチメディアコンテンツ１１７の一例を示す。３つのブロックに分かれており、左上７０１に映像撮影装置で収録した講義映像が表示される。左下７０２はページの一覧７０３が表示される。このページを選択することで該当ページへジャンプする。本発明では、ここに新たに索引ページへ切り替えるための項目７０４が追加される。右側７０５は通常講義ドキュメントの静止画像１０９が表示されるが、上記の索引項目７０４を選択することにより図に示す索引ページ７０５が表示される。図の例では、五十音順にキーワードの一覧７０６が表示されている。このキーワード７０６を選択することでそのキーワードを発声しているページへ切り替わる。なお、レイアウトについては図中のページ７０６が何らかの形で自動生成されていることを特徴としており、コンテンツを構成するブロックの数や大きさ、配置は問わない。また、必要に応じてコンテンツの一部を表示しないこともできる。

このような本発明の第１の実施の形態のマルチメディアコンテンツ生成装置１０４によれば、講義で使用するドキュメントからキーワードを抽出し、そのキーワードを発声している箇所を音声認識技術により特定した上で、キーワード索引のページをマルチメディアコンテンツ１１７内に自動的に埋め込む索引構築エンジン１１０を設けることにより、索引ページを人手を介さずに自動構築し、受動的に頭から視聴するだけでなく、知りたいキーワードに関する説明をピンポイントで視聴でき、キーワードによる調査が可能な資料としてコンテンツとしての利用価値を高めることができる。

さらに、索引ページに表示されるキーワードは実際に講師が発声したものに限られるため、検索すると必ず対象を見つけ出せる索引ページを提供することができる。

なお、上記の例では、音声認識結果ＤＢ１１４の検出キーワード２２１を元に索引ページを構築しているが、抽出キーワードＤＢ１１２のキーワード２０１を元に索引ページを構築し、音声認識結果ＤＢ１１４に含まれるキーワード２２１のみ選択可能にすることで、その講義で発声しているキーワードと発声していないキーワードを区別することのできる索引ページを提供することができる。

（第２の実施の形態）
次に、本発明の第２の実施の形態のマルチメディアコンテンツ生成装置１０４を図８に示す。第１実施の形態における抽出キーワードＤＢ１１２の代わりに辞書ファイル８０１を用意する。図９は辞書ファイルの構成を示す図である。辞書ファイル８０１は本装置の利用者が編集可能なファイルであり、キーワード９０１と振り仮名９０２を含む。

以下、第２の実施の形態の処理の流れについて記載する。第１の実施の形態で示した事前準備処理における文字認識処理の手順が不要となり、代わりに辞書ファイル８０１の作成が手順として必要となる。講義収録中の処理では、音声認識部１１３が辞書ファイル８０１の内容を読み込んだ上で、音声認識処理を実行する。

なお、上記では、抽出キーワードＤＢ１１２の代用として辞書ファイル８０１を使用する形態を示したが、併用する形態も実施可能である。この場合、音声認識部１１３は抽出キーワードＤＢ１１２からキーワードを取り出す過程で、辞書ファイル８０１の有無を確認し、存在する場合はその内容も先のキーワードに追加した上で音声認識処理を行う。

このような本発明の第２の実施の形態のマルチメディアコンテンツ生成装置１０４によれば、キーワードを手動で登録する手段を設けることにより、キーワードとして扱いたい語句を講義ドキュメント１０７に記載されている語句に限らずに追加することができるようになる。

（第３の実施の形態）
次に、本発明の第３の実施の形態のマルチメディアコンテンツ生成装置１０４を図１０に示す。第１の実施の形態における索引構築部１１５の代わりに静止画内リンク埋込部１００１を設ける。静止画内リンク埋込部１００１は、静止画像ファイル１０９内のキーワード部分を選択可能な形に加工し、選択することで、そのページについて講演している時間の中で、選択したキーワードについて発声している時点から映像ファイル１１９を再生させる機能を埋め込む機能ブロックである。

以下、第３の実施の形態の処理の流れについて図１１を用いて説明する。第１の実施の形態で示した講義収録後の後処理において、索引構築部１１５の代わりに静止画内リンク埋込部１００１を起動する（ステップ１１０１）。静止画内リンク埋込部１００１は、講義ドキュメント１０７のページ単位で、抽出キーワードＤＢ１１２からキーワード２０１を取り出し（ステップ１１０２）、そのキーワード２０１が音声認識結果ＤＢ１１４の検出キーワード２２１として含まれているか検索する（ステップ１１０３）。

含まれていない場合は、静止画埋込対象のキーワードから外す。含まれている場合は、音声認識結果ＤＢ１１４の発声時刻２２２を取り出し（ステップ１１０４）、その時刻とドキュメント切替ＤＢ１０６の表示開始時刻２４２及び表示終了時刻２４３を比較し、発声時のページ番号２４１を割り出す（ステップ１１０５）。そのページ番号２４１が現在処理しているページ番号と合致する場合のみ（ステップ１１０６）、そのページに該当する静止画像ファイル１０９にリンクを埋め込む（ステップ１１０７）。リンクは抽出キーワードＤＢ１１２の出現位置座標２０３に記されている座標値と、発声時刻２２２とを関連付けることで行う。

以上の処理を講義ドキュメント１０７の全てのページについて行う（ステップ１１０８）。処理終了後、コンテンツ生成部１１６に処理開始信号を送信する（ステップ１１０９）。

図１２に第３の実施の形態により作成したマルチメディアコンテンツ１１７の一例を示す。図中右側の部分１２０１にはある時点の講義ドキュメント１０７の静止画が表示されている。図中下線太字の文字１２０２がキーワードとして検出した語句であり、ここを選択することで同ページ内で選択したキーワードを発声しているポイントから講義映像１１９が再生される。

なお、レイアウトや大きさは図１２に限定されるものではない。また、必要に応じてコンテンツの一部を表示しないことも可能である。さらに、上記の例では索引構築部１１５の代用として静止画内リンク埋込部１００１を使用しているが、併用する形態も可能である。この場合、索引構築部１１５と静止画内リンク埋込部１００１はどちらを先に行っても構わない。

このような本発明の第３の実施の形態のマルチメディアコンテンツ生成装置１０４によれば、各ページ毎に表示する講義ドキュメントの静止画表示部分にキーワードを埋め込むことにより、現在表示しているページの説明を行っている講義映像部分からキーワードの発声箇所を検索することができる。そのページ内で繰り返しポイントとなる箇所を視聴するといった使い方が可能となる。

（第４の実施の形態）
次に、本発明の第４の実施の形態のマルチメディアコンテンツ生成装置１０４について示す。索引構築部１１５および静止画内リンク埋込部１００１においてリンクに埋め込む映像ファイル１１９の再生開始時刻に、そのキーワードを発声した時刻に該当する講義ドキュメント１０７のページ表示開始時刻を割り当てる。

以下、第４の実施の形態の処理の流れについて図１３を用いて説明する。音声認識結果ＤＢ１１４から発声時刻２２２を取得する手順までは請求項１および請求項３と同じである（ステップ１３０１）。この後、発声時刻２２２を元にドキュメント切替タイミングＤＢ１０６の表示開始時刻２４２、表示終了時刻２４３と比較し含まれるページ番号２４１を取得する（ステップ１３０２）。そのページ番号２４１の表示開始時刻２４２を映像ファイル１１９の再生開始時刻として（ステップ１３０３）、索引画面及び静止画像ファイル１０９に埋め込む（ステップ１３０４）。

このような本発明の第４施の形態のマルチメディアコンテンツ生成装置１０４によれば、映像の再生開始位置を講義ドキュメントのページ表示開始位置に調整することで、キーワードを話している文脈の区切りとなるタイミングから視聴することができる。キーワード発声部分から再生した場合、文脈がつかめず再生位置をずらすようなことがあるが、そのような操作が不要となる。

本発明のマルチメディアコンテンツ生成装置及び方法は、効率よくキーワードから映像箇所を特定可能な効果を有し、講義を収録したマルチメディアコンテンツ等に有用である。

本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置のデータベースレコード構成図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置における文字認識部の動作説明のためのフロー図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置における音声認識部の動作説明のためのフロー図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置における操作信号受信部の動作説明のためのフロー図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置における索引構築部の動作説明のためのフロー図本発明の第１の実施の形態におけるマルチメディアコンテンツ生成装置における索引ページの一例図本発明の第２の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図本発明の第２の実施の形態におけるマルチメディアコンテンツ生成装置において、辞書ファイルの構成図本発明の第３の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図本発明の第３の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込部の動作説明のためのフロー図本発明の第３の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込結果の一例図本発明の第４の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込部の動作説明のためのフロー図

符号の説明

１０１入力装置
１０２映像撮影装置
１０３ドキュメント投影装置
１０４マルチメディアコンテンツ生成装置
１０５操作信号受信部
１０６ドキュメント切替データベース
１０７講義ドキュメント
１０８静止画変換部
１０９静止画像ファイル
１１０索引構築エンジン
１１１文字認識部
１１２抽出キーワードデータベース
１１３音声認識部
１１４音声認識結果データベース
１１５索引構築部
１１６コンテンツ生成部
１１７マルチメディアコンテンツ
１１８映像変換部
１１９映像ファイル
２０１キーワード
２０２振り仮名
２０３表示位置座標
２２１検出キーワード
２２２発声時刻
２４１ページ番号
２４２表示開始時刻
２４３表示終了時刻
２４４静止画像ファイル
８０１辞書ファイル
９０１キーワード（辞書ファイル内の項目）
９０２振り仮名（辞書ファイル内の項目）
１００１静止画内リンク埋込部

Claims

講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成装置であって、
前記講義資料に含まれる文章からキーワードを抽出する文字認識手段と、
前記講義映像に含まれる音声データから抽出された前記キーワードが発声されている箇所を探索する音声認識手段と、
前記キーワードと前記講義映像中の前記キーワードの発声箇所とを対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成する索引構築手段と、
を備えるマルチメディアコンテンツ生成装置。
請求項１記載のマルチメディアコンテンツ生成装置であって、
前記文字認識手段により抽出されるキーワードを提供するキーワード提供手段を更に備えるマルチメディアコンテンツ生成装置。
請求項１又は２記載のマルチメディアコンテンツ生成装置であって、
前記講義資料内における、前記音声認識手段により認識されたキーワードに対応する部分に、前記講義映像の発声箇所と対応付けるリンク情報を埋め込むリンク情報埋め込み手段を更に備えるマルチメディアコンテンツ生成装置。
請求項１〜３のいずれか一項に記載のマルチメディアコンテンツ生成装置であって、
前記講義映像内においてキーワードが発声された箇所における前記講義資料のページを検出し、前記キーワードと前記講義資料のページの開始時刻とを対応付ける表示開始時刻情報生成手段を更に備えるマルチメディアコンテンツ生成装置。
請求項１記載のマルチメディアコンテンツ生成装置であって、
キーワード、前記キーワードが発声されている講義映像及び前記キーワードを含む講義資料を一体として表示する表示手段を備えるマルチメディアコンテンツ生成装置。
コンピュータを、請求項１〜４のいずれか一項に記載の各手段として機能させるマルチメディアコンテンツ生成プログラム。
コンピュータを、請求項１〜４のいずれか一項に記載の各手段として機能させるプログラムとして記録したコンピュータにより読み取り可能な記録媒体。
講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成方法であって、
前記講義資料に含まれる文章からキーワードを抽出するステップと、
前記講義映像に含まれる音声データから前記抽出されたキーワードが発声されている箇所を探索するステップと、
前記キーワードに前記講義映像中における前記キーワードの発声箇所を対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成するステップと、
を有するマルチメディアコンテンツ生成方法。