JP2006195900A - マルチメディアコンテンツ生成装置及び方法 - Google Patents

マルチメディアコンテンツ生成装置及び方法 Download PDF

Info

Publication number
JP2006195900A
JP2006195900A JP2005009324A JP2005009324A JP2006195900A JP 2006195900 A JP2006195900 A JP 2006195900A JP 2005009324 A JP2005009324 A JP 2005009324A JP 2005009324 A JP2005009324 A JP 2005009324A JP 2006195900 A JP2006195900 A JP 2006195900A
Authority
JP
Japan
Prior art keywords
keyword
multimedia content
lecture
page
video
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2005009324A
Other languages
English (en)
Inventor
Yoshio Niizaki
義雄 新崎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Holdings Corp
Original Assignee
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co Ltd filed Critical Matsushita Electric Industrial Co Ltd
Priority to JP2005009324A priority Critical patent/JP2006195900A/ja
Publication of JP2006195900A publication Critical patent/JP2006195900A/ja
Withdrawn legal-status Critical Current

Links

Images

Landscapes

  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供すること。
【解決手段】 講義ドキュメント107内の文章からキーワードを抽出する文字認識手段111と、講師映像の音声データから上記抽出キーワードが発声されている箇所を探し出す音声認識手段113と、上記キーワードと映像中における発生箇所の対応をマルチメディアコンテンツ内に索引ページとして生成する索引構築手段115とを設ける。
【選択図】 図1

Description

本発明は、電子教育(e-learning)等で使用されるマルチメディアコンテンツを生成するためのマルチメディアコンテンツ生成装置に関するものである。
従来のマルチメディアコンテンツ生成装置として、例えば、松下電器産業(株)の「講義自動収録システム」が挙げられる。この講義自動収録システムでは、マイクロソフトコーポレイションのPowerPoint(登録商標)を使用した講義向けに作られており、PowerPoint(登録商標)のページ単位で講義映像に対する索引付けが行われている。生成されるSMIL(Synchronized Multimedia Integration Language)コンテンツ上にはPowerPoint(登録商標)のページの一覧がリンク表示され、それを選択するとPowerPoint(登録商標)をそのページに切り替えたタイミングの映像が再生される仕組みとなっている(非特許文献1参照)。
また、映像内容を元に索引付けを行うものとして、(株)ケイディーディーアイ研究所の「PreviewNavigator(登録商標) for Real」がある。これは、映像をシーン分割したりテロップの検出を行い、シーン単位やテロップ出現単位で索引付けを行っている(非特許文献2参照)。
映像に含まれる音声に基づく索引付け技術として、例えば、特許文献1、特許文献2が挙げられる。特許文献1には、音声認識の結果抽出したキーワードを映像のタイトルとして付すものが開示されている。また、特許文献2には、音声認識の結果抽出したキーワードからインターネットやDBへアクセスする為の検索命令文を生成し、映像のキーワードに関する情報を取得するものが開示されている。
特開2002−171481号公報 特開平11−250068号公報 「講義自動収録システム」、[online]、平成15年、松下電器産業(株)、[平成16年10月20日検索]、インターネット<URL:http://www.e3.panasonic.co.jp/el_product/model_p/index.html> 「Preview Navigator(登録商標) for Real」、[online]、(株)ケイディーディーアイ研究所、[平成16年10月20日検索]、インターネット<URL:http://avs.kddlabs.co.jp/pn/body.html>
しかしながら、上記従来のマルチメディアコンテンツ生成装置におけるページ単位での索引付けでは、知りたい内容を即座に特定するための検索手段が提供されておらず、講義内容を知らない場合は、1ページずつPowerPoint(登録商標)から生成した静止画部分を参照することになり、簡単に探し出せないという問題があった。マルチメディアコンテンツを手作業で編集することにより、キーワード検索するための索引画面を追加することは可能であるが、その手間は大きい。
また、e-Learningの分野で撮影する講師映像についてはシーンの変化と講義内容とは密接な関係が無く、シーン単位の索引付けは意味を持たない場合がある。映像よりも講師の話している音声に基づく索引付けが重要となる。
さらに、講義映像と講義内容とをキーワードに関連付けて表示することもできなかった。
本発明は、上記従来の事情に鑑みてなされたものであって、効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供することを目的とする。
本発明は、講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成装置であって、前記講義資料に含まれる文章からキーワードを抽出する文字認識手段と、前記講義映像に含まれる音声データから抽出された前記キーワードが発声されている箇所を探索する音声認識手段と、前記キーワードと前記講義映像中の前記キーワードの発声箇所とを対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成する索引構築手段と、を備える。
この構成により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。
また、本発明のマルチメディアコンテンツ生成装置は、前記文字認識手段により抽出されるキーワードを提供するキーワード提供手段を更に備える。
この構成により、講義資料には含まれていないキーワードを索引項目として追加することができる。
また、本発明のマルチメディアコンテンツ生成装置は、前記講義資料内における、前記音声認識手段により認識されたキーワードに対応する部分に、前記講義映像の発声箇所と対応付けるリンク情報を埋め込むリンク情報埋め込み手段を更に備える。
この構成により、再生中の各ページ内でもキーワードによる検索が可能となる。
前記講義映像内においてキーワードが発声された箇所における前記講義資料のページを検出し、前記キーワードと前記講義資料のページの開始時刻とを対応付ける表示開始時刻情報生成手段を更に備える。
この構成により、キーワードを発声しているページの先頭からの再生が可能となる。
また、本発明のマルチメディアコンテンツ生成装置は、キーワード、前記キーワードが発声されている講義映像及び前記キーワードを含む講義資料を一体として表示する表示手段を備える。
この構成により、キーワードに関するマルチメディアコンテンツを一体として閲覧することができる。
本発明は、コンピュータを上記の各手段として機能させるマルチメディアコンテンツ生成プログラムを提供する。
このプログラムにより、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。
本発明は、コンピュータを上記の各手段として機能させるプログラムとして記録したコンピュータにより読み取り可能な記録媒体を提供する。
この記録媒体により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。
本発明のマルチメディアコンテンツ生成方法は、講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成方法であって、前記講義資料に含まれる文章からキーワードを抽出するステップと、前記講義映像に含まれる音声データから前記抽出されたキーワードが発声されている箇所を探索するステップと、前記キーワードに前記講義映像中における前記キーワードの発声箇所を対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成するステップと、を有する。
この方法により、講義資料内のキーワードから講義映像中で話している箇所を検索するための索引ページを自動的に構築することができる。
本発明によれば、効率よくキーワードから映像箇所を特定可能なマルチメディアコンテンツ生成装置及び方法を提供することができる。
(第1の実施の形態)
以下、本発明の実施の形態のマルチメディアコンテンツ生成装置について、図面を用いて説明する。本発明の実施形態では、マルチメディアコンテンツの一例として、講義資料及び講義映像を同期して再生可能なものを例にとって説明する。
本発明の第1の実施の形態のマルチメディアコンテンツ生成装置を図1に示す。
図1において、マルチメディアコンテンツ生成装置104は、操作信号受信部105と、静止画変換部108と、ドキュメント切替データベース(以下、ドキュメント切替DB)106と、映像変換部118と、コンテンツ生成部116と、索引エンジン110とを備える。生成されるマルチメディアコンテンツは、講師映像と講義資料の静止画像を同期させた形で再生するコンテンツであり、SMIL(Synchronized Multimedia Integration Language)やHTML+TIME等の言語記述により実現される。
索引構築エンジン110は索引画面を構築するものであり、文字認識部111と、抽出キーワードデータベース(以下、抽出キーワードDB)112と、音声認識部113と、音声認識結果データベース(以下、音声認識結果DB)114と、索引構築部115とを備える。
マルチメディアコンテンツ生成装置104は、マルチメディアコンテンツ生成装置104を操作するためのキーボードやマウスといった入力装置101、講師映像を撮影するための映像撮影装置102、講義の説明用資料である講義ドキュメント107をスクリーンに映し出すプロジェクタ等のドキュメント投影装置103と接続されている。
操作信号受信部105は、入力装置101から送られてくる講義資料のページ切替のタイミング情報をページ切替信号としてドキュメント切替DB106に出力する。また、入力装置101からの信号に基づき、各処理部に対して処理開始の信号を送信する。
静止画変換部108は、講義ドキュメント107をページ単位で静止画像ファイル109に変換する。
文字認識部111は、講義ドキュメント107からキーワードを抽出し、抽出キーワードDB112へ抽出結果を格納する。
音声認識部113は、映像撮影装置102から入力された音声信号に対して、抽出キーワードDB112に登録されているキーワードの発声箇所を抽出し、抽出結果を音声認識結果DB114に出力する。
索引構築部115は、音声認識結果DB114に格納されている情報からキーワードとその発声箇所をリンク付けした索引画面を構築する。
コンテンツ生成部116は、上記で構築した索引画面に加え、静止画像ファイル109、映像ファイル119、ドキュメント切替DB106の情報を元に、マルチメディアコンテンツ117を生成する。
映像変換部118は、映像撮影装置102から入力された映像信号をマルチメディアコンテンツ117内で使用できるフォーマットの映像ファイル119に変換する。
なお、マルチメディアコンテンツ装置104は単体PCで構成することも可能であるし、各処理部の入出力データをネットワーク経由で共有することで複数台のPCに分けた構成にすることも可能である。また、マルチメディアコンテンツ生成装置104は、不図示の時計を有しており、各構成部が時刻情報として使用する。
図2は、抽出キーワードDB112、音声認識結果DB114、及びドキュメント切替DB106のレコード構成を示す。
図2(a)に示すように、抽出キーワードDB112には、キーワード201、振り仮名202、表示位置座標203を講義ドキュメント107のページ単位で格納する。
キーワード201は、文字認識部111で抽出したキーワードである。振り仮名202は、キーワード201の読みであり、文字認識部111内で行う形態素解析の結果が出力される。表示位置座標203は、キーワード201の講義ドキュメント107内における表示位置であり、ページ単位で算出した座標値である。
図2(b)に示すように、音声認識結果DB114には、検出キーワード221、発声時刻222を格納する。
検出キーワード221は、抽出キーワードDB112に登録されているキーワード201の中で、音声認識部113により音声信号内から検出できたキーワードである。発声時刻222は、検出キーワード221を発声している時刻であり、時刻は不図示の時計から得られる。
図2(c)に示すように、ドキュメント切替DB106には、ページ番号241、表示開始時刻242、表示終了時刻243、静止画像ファイル名244を格納する。
ページ番号241は、講義ドキュメント107のページ番号である。表示開始時刻242は、講義ドキュメント107を該当ページへ切り替えた時刻である。表示終了時刻243は、講義ドキュメント107を該当ページから次のページへ切り替えた時刻である。静止画像ファイル名244は、該当ページを静止画変換部108で生成した静止画像ファイル名である。
以上のように構成されたマルチメディアコンテンツ生成装置104について、図3〜図6を用いてその動作を説明する。処理は、講義収録前の事前準備処理、講義収録中の処理、講義収録後の後処理に分かれる。
図3は、文字認識部の動作説明のための、フロー図である。講義収録前の事前準備処理では、索引ページに一覧表示するキーワードを講義ドキュメント107から抽出する。まず、入力装置101から文字認識部111を起動し、対象となる講義ドキュメント107を指定する。
文字認識部111は、まず講義ドキュメント107内のテキストを検出する(ステップ301)。検出は、マイクロソフトコーポレイションのOffice(登録商標)系のドキュメントの場合は、Office用API(Application Program Interface)を使用することで実現できる。また、他の電子化ドキュメントについては光学的に文字認識を行うOCR(Optical Character Recognition)エンジンを利用することで可能となる。OCRエンジンでサポートしていないフォーマットのドキュメントについては、ドキュメントをページ単位で静止画に変換した上で、OCRエンジンを使用することで実現できる。
検出したテキストデータは、形態素解析を施し品詞による分類(ステップ302)と振り仮名付け(ステップ303)を行う。次に、名詞として分類されたテキストをキーワードとして抽出し(ステップ304)、その表示位置座標を取得する(ステップ305)。 表示位置座標の取得にも上記Office(登録商標)用APIやOCRエンジンを使用する。最後に以上の処理により抽出した、キーワード201、振り仮名202、表示位置座標203を抽出キーワードDB112に格納する(ステップ306)。
なお、上記の例では名詞として分類したテキストデータをキーワードとして抽出しているが、形容詞+名詞などのパターンについてもキーワードとして扱うことができる。この場合、キーワードとして扱うべき品詞の組み合わせ条件を定めておき、その条件を満たす場合はキーワードとして判断する。
図5は、操作信号受信部の動作説明のためのフロー図であり、図5(a)は収録開始信号受信時、図5(b)はページ切替信号受信時、図5(c)は収録終了信号受信時をそれぞれ示す。
講義収録中の処理は、入力装置101を用いて収録開始の信号を操作信号受信部105に対して送信することから始まる。収録中は、講義ドキュメント107をプロジェクタ等のドキュメント投影装置103を用いてスクリーンに映し出すための操作を行う。講義ドキュメント107がPowerPoint(登録商標)の場合を例にとると、スライドショーを起動させ、マウスやキーボード操作でページを切り替える。この時、講義ドキュメント107のページ切替操作の信号を操作信号受信部105で逐次検知する。収録の終了は、入力装置101を用いて収録終了の信号を操作信号受信部105に対して送信することで行う。
図5(a)に示すように、操作信号受信部105は、収録開始信号を受信すると(ステップ501)、音声認識部113と映像変換部118に収録開始信号を送信する(ステップ502、503)。次に、静止画変換部108に1枚目のページの静止画生成を要求し(ステップ504)、生成された静止画ファイル名と収録開始信号を受信した時刻とを、それぞれドキュメント切替DB106の1ページ目の静止画ファイル名244と表示開始時刻242とに格納する(ステップ505)。
なお、上記の例では収録開始時点で講義ドキュメント107の1枚目が表示されていることを前提としているが、収録開始と講義ドキュメント107の1枚目の表示のタイミングをずらして運用することも可能である。この場合、収録開始時点では静止画変換部108に対する静止画生成要求以降の操作を行わず、講義ドキュメント107の1枚目の表示を入力装置101から送信し、操作信号受信部105はその信号をページ切替信号として扱うことで実現できる。
図5(b)に示すように、操作信号受信部105は、ページ切替信号を受信すると(ステップ521)、ドキュメント切替DB106を更新する(ステップ522)。すなわち、ページ切替信号を受信した時刻を表示終了時刻243に格納し、新たなレコード(ページ番号241、表示開始時刻242、表示終了時刻243、静止画像ファイル名244を有して構成される)を追加し、ページ番号241に切替先のページ番号を格納する。次に、静止画変換部108に切替先のページの静止画生成を要求する(ステップ523)。そして、生成された静止画ファイル名を、静止画ファイル名244として、ページ切替信号を受信した時刻を表示開始時刻242として、ドキュメント切替DB106の上記で追加したレコードに格納する(ステップ524)。
図5(c)に示すように、操作信号受信部105は、収録終了信号を受信すると(ステップ541)、ドキュメント切替DB106の表示終了時刻243に、収録終了の信号を受信した時刻を収録終了時刻として格納する(ステップ542)。次に、音声認識部113と映像変換部118に対して収録終了信号を送信し(ステップ543、544)、索引構築部115に対して後処理開始信号を送信する(ステップ545)。
図4は、音声認識部の動作説明のためのフロー図である。音声認識部113は操作信号受信部105から収録開始信号を受信することで処理を開始する(ステップ401)。抽出キーワードDB112の振り仮名202情報を元に(ステップ402)、映像撮影装置102から入力される音声信号に対して音声認識を施し、振り仮名の語句の発声時刻を検出する(ステップ403)。この検出方法はキーワードスポッティングと呼ばれており、音声認識の一技術として広く知られている。検出結果は音声認識結果DB114に格納する(ステップ404)。検出キーワード221には抽出キーワードDB112のキーワード201を格納し、発声時刻222には上記音声の発声時刻を格納する。複数回発声した場合は、1つの検出キーワード221につき複数の発声時刻222を記録する。以上の処理を操作信号受信部105から収録終了信号が送信されるまで繰り返す(ステップ405)。
映像変換部118は、映像撮影装置102から入力される映像信号をマルチメディアコンテンツ117として使用可能なフォーマットにリアルタイム変換を行いながら映像ファイル119として出力する。
図6は、索引構築部の動作説明のためのフロー図である。講義収録後の後処理は、索引構築部115が操作信号受信部105から後処理開始信号を受信した段階から始まる(ステップ601)。
索引構築部115は、音声認識結果DB114の検出キーワード221を元に、キーワードの一覧ページを生成する(ステップ602、603)。一覧ページ内の各キーワードは、音声認識結果DB114の発声時刻と関連付けられており、キーワードを選択することで音声認識結果DB114の発声時刻222をもとに映像ファイル119を再生することができる(ステップ604)。このページの記述にはSMILやHTML+TIMEといった言語により実現可能である。キーワードの表示は、発声時刻順、キーワードの五十音順など、抽出キーワードDB112、音声認識結果DB114に格納された情報から実現可能な組み合わせを使用する。また、発声箇所が複数存在する場合は、キーワードを選択する形ではなく、キーワードの下にその個数分の選択手段を設けることで実現する。キーワード一覧ページ生成後、コンテンツ生成部116に処理開始信号を送信する(ステップ605)。
コンテンツ生成部116は、静止画像ファイル109、映像ファイル119、ドキュメント切替DB106、索引構築部115で生成したキーワード一覧ページを元にマルチメディアコンテンツ117を生成する。
図7に上記手順により作成したマルチメディアコンテンツ117の一例を示す。3つのブロックに分かれており、左上701に映像撮影装置で収録した講義映像が表示される。 左下702はページの一覧703が表示される。このページを選択することで該当ページへジャンプする。本発明では、ここに新たに索引ページへ切り替えるための項目704が追加される。右側705は通常講義ドキュメントの静止画像109が表示されるが、上記の索引項目704を選択することにより図に示す索引ページ705が表示される。図の例では、五十音順にキーワードの一覧706が表示されている。このキーワード706を選択することでそのキーワードを発声しているページへ切り替わる。なお、レイアウトについては図中のページ706が何らかの形で自動生成されていることを特徴としており、コンテンツを構成するブロックの数や大きさ、配置は問わない。また、必要に応じてコンテンツの一部を表示しないこともできる。
このような本発明の第1の実施の形態のマルチメディアコンテンツ生成装置104によれば、講義で使用するドキュメントからキーワードを抽出し、そのキーワードを発声している箇所を音声認識技術により特定した上で、キーワード索引のページをマルチメディアコンテンツ117内に自動的に埋め込む索引構築エンジン110を設けることにより、索引ページを人手を介さずに自動構築し、受動的に頭から視聴するだけでなく、知りたいキーワードに関する説明をピンポイントで視聴でき、キーワードによる調査が可能な資料としてコンテンツとしての利用価値を高めることができる。
さらに、索引ページに表示されるキーワードは実際に講師が発声したものに限られるため、検索すると必ず対象を見つけ出せる索引ページを提供することができる。
なお、上記の例では、音声認識結果DB114の検出キーワード221を元に索引ページを構築しているが、抽出キーワードDB112のキーワード201を元に索引ページを構築し、音声認識結果DB114に含まれるキーワード221のみ選択可能にすることで、その講義で発声しているキーワードと発声していないキーワードを区別することのできる索引ページを提供することができる。
(第2の実施の形態)
次に、本発明の第2の実施の形態のマルチメディアコンテンツ生成装置104を図8に示す。第1実施の形態における抽出キーワードDB112の代わりに辞書ファイル801を用意する。図9は辞書ファイルの構成を示す図である。辞書ファイル801は本装置の利用者が編集可能なファイルであり、キーワード901と振り仮名902を含む。
以下、第2の実施の形態の処理の流れについて記載する。第1の実施の形態で示した事前準備処理における文字認識処理の手順が不要となり、代わりに辞書ファイル801の作成が手順として必要となる。講義収録中の処理では、音声認識部113が辞書ファイル801の内容を読み込んだ上で、音声認識処理を実行する。
なお、上記では、抽出キーワードDB112の代用として辞書ファイル801を使用する形態を示したが、併用する形態も実施可能である。この場合、音声認識部113は抽出キーワードDB112からキーワードを取り出す過程で、辞書ファイル801の有無を確認し、存在する場合はその内容も先のキーワードに追加した上で音声認識処理を行う。
このような本発明の第2の実施の形態のマルチメディアコンテンツ生成装置104によれば、キーワードを手動で登録する手段を設けることにより、キーワードとして扱いたい語句を講義ドキュメント107に記載されている語句に限らずに追加することができるようになる。
(第3の実施の形態)
次に、本発明の第3の実施の形態のマルチメディアコンテンツ生成装置104を図10に示す。第1の実施の形態における索引構築部115の代わりに静止画内リンク埋込部1001を設ける。静止画内リンク埋込部1001は、静止画像ファイル109内のキーワード部分を選択可能な形に加工し、選択することで、そのページについて講演している時間の中で、選択したキーワードについて発声している時点から映像ファイル119を再生させる機能を埋め込む機能ブロックである。
以下、第3の実施の形態の処理の流れについて図11を用いて説明する。第1の実施の形態で示した講義収録後の後処理において、索引構築部115の代わりに静止画内リンク埋込部1001を起動する(ステップ1101)。静止画内リンク埋込部1001は、講義ドキュメント107のページ単位で、抽出キーワードDB112からキーワード201を取り出し(ステップ1102)、そのキーワード201が音声認識結果DB114の検出キーワード221として含まれているか検索する(ステップ1103)。
含まれていない場合は、静止画埋込対象のキーワードから外す。含まれている場合は、音声認識結果DB114の発声時刻222を取り出し(ステップ1104)、その時刻とドキュメント切替DB106の表示開始時刻242及び表示終了時刻243を比較し、発声時のページ番号241を割り出す(ステップ1105)。そのページ番号241が現在処理しているページ番号と合致する場合のみ(ステップ1106)、そのページに該当する静止画像ファイル109にリンクを埋め込む(ステップ1107)。リンクは抽出キーワードDB112の出現位置座標203に記されている座標値と、発声時刻222とを関連付けることで行う。
以上の処理を講義ドキュメント107の全てのページについて行う(ステップ1108)。処理終了後、コンテンツ生成部116に処理開始信号を送信する(ステップ1109)。
図12に第3の実施の形態により作成したマルチメディアコンテンツ117の一例を示す。図中右側の部分1201にはある時点の講義ドキュメント107の静止画が表示されている。図中下線太字の文字1202がキーワードとして検出した語句であり、ここを選択することで同ページ内で選択したキーワードを発声しているポイントから講義映像119が再生される。
なお、レイアウトや大きさは図12に限定されるものではない。また、必要に応じてコンテンツの一部を表示しないことも可能である。さらに、上記の例では索引構築部115の代用として静止画内リンク埋込部1001を使用しているが、併用する形態も可能である。この場合、索引構築部115と静止画内リンク埋込部1001はどちらを先に行っても構わない。
このような本発明の第3の実施の形態のマルチメディアコンテンツ生成装置104によれば、各ページ毎に表示する講義ドキュメントの静止画表示部分にキーワードを埋め込むことにより、現在表示しているページの説明を行っている講義映像部分からキーワードの発声箇所を検索することができる。そのページ内で繰り返しポイントとなる箇所を視聴するといった使い方が可能となる。
(第4の実施の形態)
次に、本発明の第4の実施の形態のマルチメディアコンテンツ生成装置104について示す。索引構築部115および静止画内リンク埋込部1001においてリンクに埋め込む映像ファイル119の再生開始時刻に、そのキーワードを発声した時刻に該当する講義ドキュメント107のページ表示開始時刻を割り当てる。
以下、第4の実施の形態の処理の流れについて図13を用いて説明する。音声認識結果DB114から発声時刻222を取得する手順までは請求項1および請求項3と同じである(ステップ1301)。この後、発声時刻222を元にドキュメント切替タイミングDB106の表示開始時刻242、表示終了時刻243と比較し含まれるページ番号241を取得する(ステップ1302)。そのページ番号241の表示開始時刻242を映像ファイル119の再生開始時刻として(ステップ1303)、索引画面及び静止画像ファイル109に埋め込む(ステップ1304)。
このような本発明の第4施の形態のマルチメディアコンテンツ生成装置104によれば、映像の再生開始位置を講義ドキュメントのページ表示開始位置に調整することで、キーワードを話している文脈の区切りとなるタイミングから視聴することができる。キーワード発声部分から再生した場合、文脈がつかめず再生位置をずらすようなことがあるが、そのような操作が不要となる。
本発明のマルチメディアコンテンツ生成装置及び方法は、効率よくキーワードから映像箇所を特定可能な効果を有し、講義を収録したマルチメディアコンテンツ等に有用である。
本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置のデータベースレコード構成図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置における文字認識部の動作説明のためのフロー図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置における音声認識部の動作説明のためのフロー図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置における操作信号受信部の動作説明のためのフロー図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置における索引構築部の動作説明のためのフロー図 本発明の第1の実施の形態におけるマルチメディアコンテンツ生成装置における索引ページの一例図 本発明の第2の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図 本発明の第2の実施の形態におけるマルチメディアコンテンツ生成装置において、辞書ファイルの構成図 本発明の第3の実施の形態におけるマルチメディアコンテンツ生成装置のブロック図 本発明の第3の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込部の動作説明のためのフロー図 本発明の第3の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込結果の一例図 本発明の第4の実施の形態におけるマルチメディアコンテンツ生成装置における静止画内リンク埋込部の動作説明のためのフロー図
符号の説明
101 入力装置
102 映像撮影装置
103 ドキュメント投影装置
104 マルチメディアコンテンツ生成装置
105 操作信号受信部
106 ドキュメント切替データベース
107 講義ドキュメント
108 静止画変換部
109 静止画像ファイル
110 索引構築エンジン
111 文字認識部
112 抽出キーワードデータベース
113 音声認識部
114 音声認識結果データベース
115 索引構築部
116 コンテンツ生成部
117 マルチメディアコンテンツ
118 映像変換部
119 映像ファイル
201 キーワード
202 振り仮名
203 表示位置座標
221 検出キーワード
222 発声時刻
241 ページ番号
242 表示開始時刻
243 表示終了時刻
244 静止画像ファイル
801 辞書ファイル
901 キーワード(辞書ファイル内の項目)
902 振り仮名(辞書ファイル内の項目)
1001 静止画内リンク埋込部

Claims (8)

  1. 講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成装置であって、
    前記講義資料に含まれる文章からキーワードを抽出する文字認識手段と、
    前記講義映像に含まれる音声データから抽出された前記キーワードが発声されている箇所を探索する音声認識手段と、
    前記キーワードと前記講義映像中の前記キーワードの発声箇所とを対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成する索引構築手段と、
    を備えるマルチメディアコンテンツ生成装置。
  2. 請求項1記載のマルチメディアコンテンツ生成装置であって、
    前記文字認識手段により抽出されるキーワードを提供するキーワード提供手段を更に備えるマルチメディアコンテンツ生成装置。
  3. 請求項1又は2記載のマルチメディアコンテンツ生成装置であって、
    前記講義資料内における、前記音声認識手段により認識されたキーワードに対応する部分に、前記講義映像の発声箇所と対応付けるリンク情報を埋め込むリンク情報埋め込み手段を更に備えるマルチメディアコンテンツ生成装置。
  4. 請求項1〜3のいずれか一項に記載のマルチメディアコンテンツ生成装置であって、
    前記講義映像内においてキーワードが発声された箇所における前記講義資料のページを検出し、前記キーワードと前記講義資料のページの開始時刻とを対応付ける表示開始時刻情報生成手段を更に備えるマルチメディアコンテンツ生成装置。
  5. 請求項1記載のマルチメディアコンテンツ生成装置であって、
    キーワード、前記キーワードが発声されている講義映像及び前記キーワードを含む講義資料を一体として表示する表示手段を備えるマルチメディアコンテンツ生成装置。
  6. コンピュータを、請求項1〜4のいずれか一項に記載の各手段として機能させるマルチメディアコンテンツ生成プログラム。
  7. コンピュータを、請求項1〜4のいずれか一項に記載の各手段として機能させるプログラムとして記録したコンピュータにより読み取り可能な記録媒体。
  8. 講義資料と講義映像とが同期して再生可能なマルチメディアコンテンツを作成するマルチメディアコンテンツ生成方法であって、
    前記講義資料に含まれる文章からキーワードを抽出するステップと、
    前記講義映像に含まれる音声データから前記抽出されたキーワードが発声されている箇所を探索するステップと、
    前記キーワードに前記講義映像中における前記キーワードの発声箇所を対応付けて、前記マルチメディアコンテンツ内に前記キーワードの索引ページを生成するステップと、
    を有するマルチメディアコンテンツ生成方法。
JP2005009324A 2005-01-17 2005-01-17 マルチメディアコンテンツ生成装置及び方法 Withdrawn JP2006195900A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2005009324A JP2006195900A (ja) 2005-01-17 2005-01-17 マルチメディアコンテンツ生成装置及び方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2005009324A JP2006195900A (ja) 2005-01-17 2005-01-17 マルチメディアコンテンツ生成装置及び方法

Publications (1)

Publication Number Publication Date
JP2006195900A true JP2006195900A (ja) 2006-07-27

Family

ID=36801926

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005009324A Withdrawn JP2006195900A (ja) 2005-01-17 2005-01-17 マルチメディアコンテンツ生成装置及び方法

Country Status (1)

Country Link
JP (1) JP2006195900A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013059038A (ja) * 2012-10-09 2013-03-28 Toshiba Corp 情報処理装置および情報表示方法
JP2018091998A (ja) * 2016-12-02 2018-06-14 ヤマハ株式会社 情報処理システムおよび情報処理方法
JP6382423B1 (ja) * 2017-10-05 2018-08-29 株式会社リクルートホールディングス 情報処理装置、画面出力方法及びプログラム

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013059038A (ja) * 2012-10-09 2013-03-28 Toshiba Corp 情報処理装置および情報表示方法
JP2018091998A (ja) * 2016-12-02 2018-06-14 ヤマハ株式会社 情報処理システムおよび情報処理方法
JP6382423B1 (ja) * 2017-10-05 2018-08-29 株式会社リクルートホールディングス 情報処理装置、画面出力方法及びプログラム
WO2019069997A1 (ja) * 2017-10-05 2019-04-11 株式会社リクルート 情報処理装置、画面出力方法及びプログラム
JP2019066785A (ja) * 2017-10-05 2019-04-25 株式会社リクルートホールディングス 情報処理装置、画面出力方法及びプログラム

Similar Documents

Publication Publication Date Title
US7149957B2 (en) Techniques for retrieving multimedia information using a paper-based interface
US7215436B2 (en) Device for generating a multimedia paper document
US7263671B2 (en) Techniques for annotating multimedia information
US7263659B2 (en) Paper-based interface for multimedia information
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US7266782B2 (en) Techniques for generating a coversheet for a paper-based interface for multimedia information
US8539344B2 (en) Paper-based interface for multimedia information stored by multiple multimedia documents
US7743347B2 (en) Paper-based interface for specifying ranges
JP5123591B2 (ja) 発想支援装置、発想支援システム、発想支援プログラム及び発想支援方法
JP5634853B2 (ja) 電子コミックのビューワ装置、電子コミックの閲覧システム、ビューワプログラム、ならびに電子コミックの表示方法
WO2012086356A1 (ja) ファイルフォーマット、サーバ、電子コミックのビューワ装置および電子コミック生成装置
JPH10507554A (ja) 探索できるディジタルビデオライブラリを作成する方法および装置ならびにそのようなライブラリを利用するシステムおよび方法
KR20090004990A (ko) 인터넷 검색 기반 텔레비전을 위한 방법, 매체 및 시스템
JP2005064600A (ja) 情報処理装置、情報処理方法、およびプログラム
JP2008234431A (ja) コメント蓄積装置、コメント作成閲覧装置、コメント閲覧システムおよびプログラム
JP5568953B2 (ja) 情報処理装置、シーン検索方法及びプログラム
WO2021167238A1 (ko) 내용 기반 동영상 목차 자동생성 방법 및 시스템
JP2006186426A (ja) 情報検索表示装置、情報検索表示方法および情報検索表示プログラム
KR102346668B1 (ko) 회의 통역 장치
JP2006195900A (ja) マルチメディアコンテンツ生成装置及び方法
KR101968599B1 (ko) 입력 텍스트에 따른 스토리 동영상 생성방법 및 장치
JP2007199315A (ja) コンテンツ提供装置
KR101783872B1 (ko) 동영상 검색 시스템 및 방법
JP4080965B2 (ja) 情報提示装置及び情報提示方法
JP2007293602A (ja) 映像検索システム、映像検索方法およびプログラム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20071113

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20071120

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20080401