JP4218758B2

JP4218758B2 - 字幕生成装置、字幕生成方法、及びプログラム

Info

Publication number: JP4218758B2
Application number: JP2004369784A
Authority: JP
Inventors: 晃太郎宮本; 則子根岸; 健一荒川
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2004-12-21
Filing date: 2004-12-21
Publication date: 2009-02-04
Anticipated expiration: 2024-12-21
Also published as: US7739116B2; US20100036664A1; US8155969B2; JP2006178087A; US20070048715A1

Description

本発明は、プレゼンテーションの音声を認識して字幕を生成する字幕生成装置、その字幕を用いて文字列を検索する検索装置等に関する。

近年、プレゼンテーションソフトウェアを用いたプレゼンテーションの形態が一般的になっている。通常、このような形態のプレゼンテーションは、次のような手順で行われる。まず、パーソナルコンピュータ等でプレゼンテーションソフトウェアを動作させ、プレゼンテーションで参照するページ型リッチ又は平易電子文書(以下、「プレゼンテーション文書」という)を作成する。そして、このプレゼンテーション文書を使用した実際のプレゼンテーションも、パーソナルコンピュータ等でプレゼンテーションソフトウェアを動作させ、そのスライドショー機能によりプレゼンテーション文書を次々と表示することにより行う。

一方で、昨今、聴覚障害者や高齢者等に対してアクセシビリティを確保するため、音声で発信される情報に字幕を付与するという動きがある。例えば、放送を通じて発信される情報については、字幕付与可能な全ての放送番組に２００７年までに字幕を付与するという具体的な目標が掲げられている。
こういった背景から、プレゼンテーションの音声に字幕を付与する必要性も高いと考えられる。プレゼンテーション文書にも文字は記述されているが、殆どの場合、記述されているのは断片的な情報に過ぎず、また、発表者がプレゼンテーション文書の通りにプレゼンテーションを行うとも限らないからである。

このような字幕の付与方法としては、音声認識技術を用いて自動的に字幕を作成する方法がある。しかしながら、現状の音声認識技術では、完璧に正しい字幕を作成することは不可能である。従って、結局は、編集者が音声認識結果をチェックして編集する作業を行わなければならない。従来、このような編集作業は、手作業で行われていた。具体的には、音声認識結果を、対応する音声を再生しながら手入力により修正するというものであった。
ところが、この方法では、編集に多大な工数を要し、字幕を生成するためのコストにも大きく影響していた。また、手入力の編集の効率は編集者のスキルレベルに大きく依存し、効率的に字幕を得ようとすれば多くのコストがかかってしまう。更に、長時間の手入力は、編集者に大きな負担を強いることも指摘されている。

また、プレゼンテーションソフトウェアは、プレゼンテーション文書のページの中に注釈情報(以下、「スピーカノート」)を埋め込む機能を有することがある。この機能によって、そのプレゼンテーション文書による模範的なプレゼンテーションを行うマスタスピーカの発表内容をスピーカノートとして埋め込んでおけば、マスタスピーカの発表を多くの人が模倣することも簡単にできる。また、発表者が自分の発表内容をスピーカノートとして埋め込んでおけば、自分の発表用のメモとして使用することもできる。
従来、このようなスピーカノートも、字幕編集作業と同様、手入力で設定されるのが一般的であった。

更に、プレゼンテーションの記録から所望の場面や単語を検索することも行われていた(例えば、特許文献１、２参照)。
具体的には、特許文献１の発明では、電子会議において、動画、音声、ペン入力、マウス入力、キー入力等に基づいて、検索用ファイルを作成している。そして、この検索ファイルにアクセスして会議データを取得しながら会議録を生成している。
また、特許文献２の発明では、プレゼンテーション文書内のテキストデータ又はプレゼンテーションの音声から複数のキーワードを登録している。そして、音声入力によりページの切替を行っている。

特開平７−１８２３６５号公報(第６−１１頁、第５−１１図、第１８−２１図) 特開２００２−２６８６６７号公報(第５−８頁、第３、４、９図)

しかしながら、特許文献１、２を始めとした従来技術において、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携することは行われていなかった。
従って、音声認識によって得られた不確定な字幕(以下、「字幕候補」という)を編集する作業においては、無駄が多く発生してしまうという問題点があった。
また、スピーカノートの生成も音声認識とは無関係に行われていたために、効率的ではなく、余計なコストがかかってしまうという問題点があった。
更に、検索処理も、音声やテキストデータといった個々のメディアに着目して行われていたので、満足のいく結果を効率よく得ることができないという問題点もあった。

本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携させることにある。
また、本発明の他の目的は、プレゼンテーションに対する字幕の編集作業の効率を向上することにある。
更に、本発明の他の目的は、スピーカノートを効率よく生成できるようにすることにある。
更にまた、本発明の他の目的は、プレゼンテーションに関する情報検索において満足のいく結果を効率よく得ることができるようにすることにある。

かかる目的のもと、本発明では、プレゼンテーションの音声を認識することで得られた字幕の編集をプレゼンテーション文書全般に出現するキーワードを用いて編集できるようにした。即ち、本発明の装置は、プレゼンテーションの音声を認識することによってその音声に対する字幕を生成するためのものであり、プレゼンテーションで使用される文書データからキーワードを抽出する抽出手段と、この抽出手段により抽出されたキーワードを用いて、字幕の生成、又は、字幕を生成する作業の支援を行う処理手段とを備えている。

ここで、抽出手段は、キーワードに重み付けを行い、処理手段は、その重み付けを考慮した処理を行うことも可能である。
また、処理手段による字幕の生成処理としては、抽出手段により抽出されたキーワードを音声認識辞書に登録する処理、又は、抽出手段により抽出されたキーワードに適したカテゴリーの辞書を音声認識辞書として設定する処理が考えられる。一方、処理手段による字幕の生成作業の支援処理としては、抽出手段により抽出されたキーワードを字幕と共に表示する処理が考えられる。

また、本発明は、文字列を検索するための装置として捉えることもできる。その場合、本発明の装置は、プレゼンテーションの音声を認識することによって得られた第１のテキストデータ(字幕)と、そのプレゼンテーションで使用される文書データから抽出された第２のテキストデータ(プレゼンテキスト)と、第１のテキストデータと第２のテキストデータとの関連付け情報とを記憶する記憶手段と、第１のテキストデータと第２のテキストデータとからなるテキストデータから、関連付け情報を用いて文字列を検索する検索手段とを備えている。

更に、本発明は、プレゼンテーションの文書の情報とプレゼンテーションの音声認識とを融合する方法として捉えることもできる。その場合、本発明の方法は、複数のページを有する文書の処理と、その文書を参照して発せられた音声の処理とを、コンピュータが融合するためのものであり、コンピュータが、音声を認識することによって得られた字幕のうち、文書の特定のページを参照して発せられた音声を認識することによって得られた特定の字幕を決定するステップと、コンピュータが、特定の字幕と特定のページとの対応を記憶するステップとを含んでいる。

そして、この特定の字幕と特定のページとの対応を用いて、例えば、次のような処理を行う。
第一に、特定の字幕を、特定のページに関する特定の情報と共に表示する処理である。
第二に、特定の字幕を、文書の特定のページに埋め込む処理である。
第三に、特定の字幕を対象とした文字列の検索を、特定のページに含まれるテキストデータにまで対象を拡げて行う処理である。

一方、本発明は、コンピュータに所定の機能を実現させるプログラムとして捉えることもできる。その場合、本発明の第１のプログラムは、コンピュータに、プレゼンテーションで使用される文書データからキーワードを抽出する機能と、抽出されたキーワードを用いて、プレゼンテーションの音声に対する字幕の生成、又は、字幕を生成する作業の支援を行う機能とを実現させるものである。また、本発明の第２のプログラムは、コンピュータに、所定の文書を参照して発せられた音声を認識することによって得られた字幕のうち、その文書の特定のページを参照して発せられた音声を認識することによって得られた特定の字幕を決定する機能と、特定の字幕と特定のページとの対応を記憶する機能とを実現させるものである。

本発明によれば、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携させることができる。

以下、添付図面を参照して、本発明を実施するための最良の形態(以下、「実施の形態」という)について詳細に説明する。
図１は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、字幕生成装置１０と、検索装置２０とから構成される。
字幕生成装置１０は、プレゼンテーション文書に含まれるテキストデータ(以下、「プレゼンテキスト」という)、プレゼンテーションの音声、ページ切替イベント、マスタ字幕を入力し、字幕及びページ単位の字幕(スピーカノート)を出力するものである。ここで、マスタ字幕とは、同じプレゼンテーション文書を使用したマスタスピーカの発表により得られた字幕のことを指す。
また、検索装置２０は、ページ単位のプレゼンテキスト、ページ単位の字幕、検索対象の文(検索文)を入力し、検索結果(コンテンツインデックス)を出力するものである。

図２は、本実施の形態における字幕生成装置１０及び検索装置２０として用いるのに好適なコンピュータのハードウェア構成の例を模式的に示した図である。
図２に示すコンピュータは、演算手段であるＣＰＵ(Central Processing Unit)９０ａと、Ｍ/Ｂ(マザーボード)チップセット９０ｂ及びＣＰＵバスを介してＣＰＵ９０ａに接続されたメインメモリ９０ｃと、同じくＭ/Ｂチップセット９０ｂ及びＡＧＰ(Accelerated Graphics Port)を介してＣＰＵ９０ａに接続されたビデオカード９０ｄ及びディスプレイ９０ｊとを備える。また、ＰＣＩ(Peripheral Component Interconnect)バスを介してＭ/Ｂチップセット９０ｂに接続された磁気ディスク装置(ＨＤＤ)９０ｅと、ネットワークインターフェイス９０ｇとを備える。更に、このＰＣＩバスからブリッジ回路９０ｆ及びＩＳＡ(Industry Standard Architecture)バス等の低速なバスを介してＭ/Ｂチップセット９０ｂに接続されたフレキシブルディスクドライブ９０ｈとキーボード/マウス９０ｉとを備える。

尚、図２は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード９０ｄを設ける代わりに、ビデオメモリのみを搭載し、ＣＰＵ９０ａにてイメージデータを処理する構成としてもよいし、外部記憶装置として、ＡＴＡ(AT Attachment)やＳＣＳＩ(Small Computer System Interface)等のインターフェイスを介してＣＤ−Ｒ(Compact Disc Recordable)やＤＶＤ−ＲＡＭ(Digital Versatile Disc Random Access Memory)のドライブを設けてもよい。

次に、本実施の形態における字幕生成装置１０について詳細に説明する。
図３は、本実施の形態における字幕生成装置１０の機能構成を示した図である。この字幕生成装置１０は、テキスト抽出部１１と、形態素解析部１２と、共通キーワード生成部１３と、辞書登録部１４と、音声認識部１５と、ページ時間記録部１６と、共通キーワード再生成部１７と、表示制御部１８と、スピーカノート生成部１９とを備える。また、テキスト属性データベース(以下、「ＤＢ」という)３１と、単語属性ＤＢ３２と、属性重みＤＢ３３と、キーワードＤＢ３４と、辞書ＤＢ３５と、字幕ＤＢ３６と、ページ時間ＤＢ３７と、マスタ字幕ＤＢ３８とを更に備える。

テキスト抽出部１１は、プレゼンテーション文書からプレゼンテキスト及びその属性を抽出する機能を有し、テキスト属性ＤＢ３１は、その抽出されたプレゼンテキスト及びその属性を記憶するＤＢである。
形態素解析部１２は、テキスト属性ＤＢ３１に記憶されたプレゼンテキストに対し形態素解析を行って単語に分解する機能を有し、単語属性ＤＢ３２は、その分解によって得られた単語及びその属性を記憶するＤＢである。

属性重みＤＢ３３は、プレゼンテキストの属性とその重み付けを記憶したＤＢであり、共通キーワード生成部１３は、単語属性ＤＢ３２に記憶された各単語に対し、属性重みＤＢ３３を参照して重み付けを行う機能を有する。また、キーワードＤＢ３４は、その重み付けされた単語をキーワードとして記憶するＤＢである。
尚、テキスト抽出部１１、形態素解析部１２、共通キーワード生成部１３は、プレゼンテーション文書から所定の情報を抽出するという観点から、「抽出手段」として把握することも可能である。また、後述する共通キーワード再生成部１７をこの「抽出手段」に含めて捉えてもよい。

辞書登録部１４は、キーワードＤＢ３４に記憶されたキーワードを、音声認識において参照される辞書ＤＢ３５に登録する機能を有し、音声認識部１５は、この辞書ＤＢ３５を参照して音声認識を行う機能を有する。また、字幕ＤＢ３６は、この音声認識の結果を字幕として時間とともに記憶するＤＢである。
ページ時間記録部１６は、ページ切替イベントを検出し、それをタイムスタンプとして記録する機能を有し、ページ時間ＤＢ３７は、ページと時間との対応を記憶するＤＢである。

共通キーワード再生成部１７は、単語属性ＤＢ３２、属性重みＤＢ３３に加え、ページ時間ＤＢ３７をも参照し、共通キーワードを再生成する機能を有する。
マスタ字幕ＤＢ３８は、ページごとのマスタ字幕を記憶するＤＢである。また、表示制御部１８は、字幕ＤＢ３６に記憶された字幕と時間との対応を表示し、かつ、キーワードＤＢ３４に記憶されたキーワード、テキスト属性ＤＢ３１に記憶されたプレゼンテキスト、マスタ字幕ＤＢ３８に記憶されたマスタ字幕を連動させて表示する機能を有する。
尚、辞書登録部１４、表示制御部１８は、字幕の生成処理、又は、字幕の生成作業の支援処理を行うという観点から、「処理手段」として把握することも可能である。

また、スピーカノート生成部１９は、字幕ＤＢ３６に記憶された字幕からスピーカノートを生成してプレゼンテーション文書に埋め込む機能を有し、スピーカノートの登録を行うという観点から「登録手段」として把握することも可能な部分である。

尚、これらの各機能は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、字幕生成装置１０のＣＰＵ９０ａが、テキスト抽出部１１、形態素解析部１２、共通キーワード生成部１３、辞書登録部１４、音声認識部１５、ページ時間記録部１６、共通キーワード再生成部１７、表示制御部１８、スピーカノート生成部１９の各機能を実現するプログラムを、例えば、磁気ディスク装置９０ｅからメインメモリ９０ｃに読み込むことにより実現される。

このような機能構成を有する字幕生成装置１０によって、図４に示すような表示がなされる。図示するように、画面上には、字幕候補表示領域１０ａと、共通キーワードリスト表示領域１０ｂと、プレゼンテキスト表示領域１０ｃと、マスタ字幕表示領域１０ｄとが設けられている。
字幕候補表示領域１０ａには、「これまでのＩＢＭの取り組みはオンデマンドビジネスを実現する上での過程にすぎません。」という音声の認識結果が、形態素解析に基づく最小単位の文字列(以下、「字幕行」という)ごとに表示されている。「行」欄には、各字幕行がその音声ファイル全体の先頭から何行目に位置するかが表示される。「開始」欄には、各字幕行に対応する音声がその音声ファイル全体の先頭から何秒経過した時に流れるかが表示される。

また、共通キーワードリスト表示領域１０ｂには、プレゼンテーション文書に出現するキーワードがその重みの高い順に一定の数だけ表示される。プレゼンテキスト表示領域１０ｃには、字幕候補表示領域１０ａに表示された字幕に対応するページに含まれるプレゼンテキストが表示される。マスタ字幕表示領域１０ｄには、字幕候補表示領域１０ａに表示された字幕に対応するページについての過去のプレゼンテーションから得られたマスタ字幕が表示される。

次に、字幕生成装置１０の動作について説明する。
(プレゼンテーション前の動作)
まず、テキスト抽出部１１が、プレゼンテーションソフトウェアからプレゼンテーション文書に含まれるプレゼンテキスト及びその属性を受け取り、ページごとに、テキスト属性ＤＢ３１に記憶する。ここで、属性とは、テキストがタイトルであるかどうか、テキストの文字サイズ、テキストに下線等の装飾が施されているかどうか等の情報である。
その結果、テキスト属性ＤＢ３１には、例えば、図５(ａ)に示すような情報が格納される。尚、プレゼンテキストに対する属性としては、「アクセシビリティの意義」に対する属性のように２つ以上存在する場合もある。その場合は、全ての属性を格納するものとする。

また、形態素解析部１２は、テキスト属性ＤＢ３１に記憶されたプレゼンテキストを形態素解析することにより単語に分解し、単語属性ＤＢ３２に記憶する。尚、形態素解析の手法は、公知のものを用いればよいので、ここでは詳しい説明を省略する。
その結果、単語属性ＤＢ３２には、例えば、図５(ｂ)に示すような情報が格納される。

単語属性ＤＢ３２への情報の格納が完了すると、共通キーワード生成部１３がプレゼンテーション文書に共通のキーワードを決定する動作が開始する。プレゼンテーション文書のページの中には、画像等が中心になっていて意味がある文字列を殆ど抽出できないケースもあるので、プレゼンテーション文書全般に共通するキーワードを抽出するのである。
共通キーワード生成部１３では、各単語の属性に応じて重み付けを行いながら、キーワードを選定する。そこで、この属性と重み付けとの対応が事前に記憶された属性重みＤＢ３３について説明しておく。
図６に、属性重みＤＢ３３の一例を示す。タイトル、文字サイズ、下線付き、太字等の属性に対し、重みが定義されている。例えば、同じ文字であっても、文字サイズが大きければ、そのキーワードが重要であり、それがタイトルとして用いられていれば更に重要であると判定できるようになっている。尚、図中の「代替テキスト」とは、画像等に対して付与された文字列で、スライドショー時等においては可視化されていないが、特定の操作に応じて可視化される文字列のことである。

次に、共通キーワード生成部１３の動作について詳細に説明する。
図７は、共通キーワード生成部１３の動作を示したフローチャートである。
まず、共通キーワード生成部１３は、単語属性ＤＢ３２から単語及びその属性を取り出す(ステップ１０１)。次に、単語がまだあるかどうかを判定する(ステップ１０２)。即ち、ステップ１０１で単語が取り出せたかどうかを判定する。

その結果、単語が取り出せなければ、処理を終了する。一方、単語が取り出せれば、その単語の属性重みを初期化し(ステップ１０３)、属性重みＤＢ３３から属性に対する重みを取り出して加算する(ステップ１０４)。尚、属性は１つとは限らないので、属性がまだあるかどうかを判定し(ステップ１０５)、属性がまだあれば、ステップ１０４を繰り返す。即ち、属性の数だけ重みの加算を行う。

重みが決定されると、キーワードＤＢ３４を参照し(ステップ１０６)、その単語が既にあるかどうかを判定する(ステップ１０７)。
その結果、単語がなければ、その単語と重みとを新規に登録する(ステップ１０８)。一方、既にあれば、その単語に対し既に登録された重みに、今回算出された重みを加算する(ステップ１０９)。

これにより、キーワードＤＢ３４には、例えば、図８に示すような情報が格納される。ここでは、キーワードは、重みの高い順にソートされて記憶されている。
辞書登録部１４は、このキーワードＤＢ３４に登録されたキーワードを辞書ＤＢ３５に登録する。尚、この辞書登録は、音声認識エンジンにおける公知の技術を用いて行うことができる。

(プレゼンテーション時の動作)
発表者がプレゼンテーションを行うと、音声認識部１５が、辞書ＤＢ３５を参照してプレゼンテーションの音声の認識を行う。即ち、プレゼンテーションの開始からの時間と音声認識結果との対応を時々刻々と取得する。そして、この時間と音声認識結果との対応は、字幕ＤＢ３６に格納される。尚、ここでの音声認識も、公知の技術を用いて行うことができる。
これにより、字幕ＤＢ３６には、図９(ａ)に示すような情報が格納される。

また、プレゼンテーションにおいては、発表者等がそのプレゼンテーションの音声に合わせてページの切替を行う。そこで、ページ時間記録部１６は、ページ切替イベントを検出し、ページと時間との対応をページ時間ＤＢ３７に記録する。
これにより、ページ時間ＤＢ３７には、図９(ｂ)に示すような情報が格納される。ここでは、ページに対し、そのページに切り替わった時間を記録するようにしている。
尚、ここで記録する時間も、音声認識部１５が取得する時間と同様、プレゼンテーションの開始からの時間とすればよい。例えば、字幕生成装置１０がプレゼンテーション開始の指示を受けてタイマをスタートさせ、同じタイマのカウント値を音声認識部１５とページ時間記録部１６とが共有することが考えられる。

その後、共通キーワード再生成部１７が、ページ時間ＤＢ３７に記憶された情報を用いて、キーワードの重み付けを再度行う。
図１０は、その場合の共通キーワード再生成部１７の動作を示したフローチャートである。
まず、共通キーワード再生成部１７は、キーワードＤＢ３４を初期化する(ステップ１２１)。そして、単語属性ＤＢ３２から単語、その属性、その単語が現れたページの情報を取り出す(ステップ１２２)。次に、単語がまだあるかどうかを判定する(ステップ１２３)。即ち、ステップ１２２で単語が取り出せたかどうかを判定する。

その結果、単語が取り出せなければ、処理を終了する。一方、単語が取り出せれば、ページ時間ＤＢ３７を参照し、そのページがプレゼンテーションで参照された時間に基づく重みを算出する(ステップ１２４)。
尚、ページ時間ＤＢ３７には、ページとそのページに切り替えた時間との対応が記録されているので、あるページが参照されていた時間は、そのページに切り替えた時間をその次のページに切り替えた時間から減ずることにより求めることができる。あるページを参照していた時間が限りなく０に近い場合、そのページは参照されなかったと考えることができる。このようなページのみに現れる単語については、重み付けをしない。参照されなかったページのみに現れる単語は、プレゼンテーションの音声にも出現しない可能性が高いと判断できるからである。即ち、この共通キーワード再生成部１７は、より一般的には、プレゼンテーションの音声におけるキーワードの出現回数に応じて重み付けを行うものであるということができる。
また、ページを参照していた時間に基づいて重み付けを求める方法としては、単なる比例関係に基づくものを始め、指数関数や２次関数を用いる方法等、既知の種々の計算方法を採用することが可能である。

そして、その単語の属性重みを初期化し(ステップ１２５)、属性重みＤＢ３３から属性に対する重みを取り出して加算する(ステップ１２６)。尚、属性は１つとは限らないので、属性がまだあるかどうかを判定し(ステップ１２７)、属性がまだあれば、ステップ１２６を繰り返す。即ち、属性の数だけ重みの加算を行う。
重みが決定されると、キーワードＤＢ３４を参照し(ステップ１２８)、その単語が既にあるかどうかを判定する(ステップ１２９)。
その結果、単語がなければ、その単語と重みとを新規に登録する(ステップ１３０)。一方、既にあれば、その単語に対し既に登録された重みに、今回算出された重みを加算する(ステップ１３１)。

ところで、このようにして生成される共通キーワードは、「プレゼンテーションのバージョン集合に含まれる単語のうち、時間と属性の重みに基づいて重要度が高いと判断されたもの」と定義することができる。尚、プレゼンテーションのバージョン集合とは、同じプレゼンテーション文書を用いた複数のプレゼンテーションの集合を意味する。同じプレゼンテーション文書を用いたとしてもプレゼンテーションは１回とは限らないからである。そして、プレゼンテーションのバージョンによって、共通キーワードの選定に有益かどうかの違いがあることも考えられるので、このような違いを考慮して重み付けを行うことも可能である。

ここで、共通キーワードに対する重みＴＦ’は、具体的には、次のような数式で表現することができる。但し、Ｗｖはプレゼンテーションのバージョンに基づく重みを示し、Ｗｔは各語の属性に基づく重みを示す。また、ｔは語を示し、ｔｐは各ページについての参照時間の配列を示し、ｔｐｉはｔｐから得られる特定のページの参照時間を示す。更に、Ｎｒはプレゼンテーションの数を示し、Ｎｐはページの数を示し、Ｎａは各ページにおける語「ｔ」の数を示す。

尚、これに類似する手法として、ＴＦ−ＩＤＦ(ＴＦＩＤＦ)法がある。このＴＦ−ＩＤＦ法は、インターネットからキーワードの情報を検索する多くの手法のベースとなっている。ここで、ＴＦとは、Term Frequencyの略で、特定の文書の中の単語の出現率を表し、ＩＤＦとは、Inverted Document Frequencyの略で、その単語の特異性を表している。ＴＦ−ＩＤＦ法は、これらの指標に基づいて、文書における単語の重要度を表すものである。
ここで、ＴＦ−ＩＤＦ法において、単語の重要度は、具体的には、次のような数式で表現される。但し、ｔは語を示し、ｔｆは文書における語「ｔ」の数を示し、Ｎは文書の数を示し、ｎは語「ｔ」を含む文書の数を示す。

ここで、本実施の形態の手法とＴＦ−ＩＤＦ法との違いについて補足しておく。
１）本実施の形態の手法では、プレゼンテーション文書群(プレゼンテーション群)からキーワード自体を特定するものであるが、ＴＦ−ＩＤＦ法は、キーワードがどの文書にとって重要であるかを算出するものである。
２）本実施の形態の手法では、キーワードの属性を考慮してその重み付けを行っているが、ＴＦ−ＩＤＦ法では、そのような重み付けを行っていない。
３）実際のプレゼンテーションでは、プレゼンテーション文書の全てのページが使用されるとは限らないし、また、全てのページが均等に使用されるとは限らない。よって、本実施の形態の手法では、キーワードを含むページについての発表時間を考慮してその重み付けを行っている。これに対し、ＴＦ−ＩＤＦ法では、そのような重み付けを行っていない。

４）上述したように、プレゼンテーションは１回とは限らない。つまり、プレゼンテーションのバージョン集合が発生する。よって、本実施の形態の手法では、単一のプレゼンテーション文書のみならず、プレゼンテーションのバージョン集合を用いて重み付けを行っている。これに対し、ＴＦ−ＩＤＦ法では、そのような重み付けを行っていない。
５）上述したように、バージョンによってそのプレゼンテーションの有益性は一律であるとは限らない。よって、本実施の形態の手法では、キーワードが現れたプレゼンテーションのバージョンを考慮してその重み付けを行っている。これに対し、ＴＦ−ＩＤＦ法では、そのような重み付けを行っていない。

(プレゼンテーション後の動作)
プレゼンテーションが終了すると、表示制御部１８は、ディスプレイ９０ｊに図４のような表示がなされるよう制御する。具体的には、字幕ＤＢ３６から時間と音声認識結果との対応を読み出し、字幕候補表示領域１０ａに表示する。また、キーワードＤＢ３４からキーワードを読み出し、共通キーワードリスト表示領域１０ｂに表示する。更に、ページ時間ＤＢ３７を参照し、時間情報に基づいて音声認識結果に対応するページを特定する。そして、テキスト属性ＤＢ３１からそのページに含まれるプレゼンテキストを読み出してプレゼンテキスト表示領域１０ｃに表示し、マスタ字幕ＤＢ３８からそのページについてのマスタ字幕を読み出してマスタ字幕表示領域１０ｄに表示する。

尚、マスタ字幕とは、上述したように、同じプレゼンテーション文書を使用したプレゼンテーションの音声を認識することで得られた字幕であるが、このように同じプレゼンテーション文書を再利用するケースとしては、例えば、次のようなものが考えられる。
Ａ．あるメーカが開発した商品を紹介するプレゼンテーションをまずそのメーカが行う。それを受けて、ＩＳＶ(Independent Software Vendor)等が諸々の営業の現場で同様のプレゼンテーションを行う。
Ｂ．講義、セッション等に関する同一のプレゼンテーションを、定員、クラス割りの都合で複数のクラスで行う。或いは、ある年度と同じ講義を次の年度も同様に行う。
Ｃ．ある社員が行ったプレゼンテーションの内容を、その部下や同僚が引き継ぐ。
Ｄ．重要な発表の前にリハーサルを行って予め字幕を生成しておき、後述する本手法による実際のプレゼンテーションにおける字幕付けを速やかに行えるようにする。
従来、以上のように同一のプレゼンテーション文書を用いたプレゼンテーションであっても、字幕はその都度編集するほかなかったが、本実施の形態では、このようなマスタ字幕も、今回の字幕の編集に役立てるようにしている。

既述のように、表示制御部１８は、あるページについての字幕候補に対し、そのページのプレゼンテキスト及びマスタ字幕を表示する。従って、字幕候補に対するフォーカスが他のページへ移動した場合は、それに連動してプレゼンテキスト及びマスタ字幕の表示が切り替わるように制御する。
図１１は、その場合の表示制御部１８の動作を示したフローチャートである。
まず、表示制御部１８は、ユーザからのキー入力があると、それがフォーカス移動のキー入力であるかどうかを判定する(ステップ１４１)。その結果、フォーカス移動のキー入力でなければ、キー入力による割り込み前の処理に復帰し、そのキー入力に応じた処理を行う。

一方、フォーカス移動のキー入力である場合、又は、その他のフォーカス移動のイベント(マウスイベント等)である場合は、フォーカス移動先の字幕行に対応するページを検出する(ステップ１４２)。具体的には、字幕ＤＢ３６に字幕と時間との対応が記憶されているので、まず、移動先の字幕行に対応する時間を取得する。そして、ページ時間ＤＢ３７にページと時間との対応が記憶されているので、その時間に対応するページを取得する。
また、現在の字幕行に対応するページも取得する(ステップ１４３)。これは、ステップ１４２と同様の手順で既に取得してメモリ上に記憶しているものがあれば、それをそのまま用いることもできる。
そして、表示制御部１８は、新たにフォーカスを受けた字幕行のページがそれまでのページから変化したかどうかを判定する(ステップ１４４)。
その結果、ページが変化したと判定されなかった場合は、割り込み前の処理に復帰する。一方、ページが変化したと判定された場合は、プレゼンテキストの表示を新たなページに対応するものに切り替える(ステップ１４５)と共に、マスタ字幕も新たなページに対応して自動的に切り替える(ステップ１４６)。

本実施の形態では、このように字幕候補、プレゼンテキスト、マスタ字幕を連動させながら表示し、また、共通キーワードリストを表示することにより、字幕編集作業の支援を行う。そして、このような編集後の字幕は、字幕ＤＢ３６に記憶されることになる。
尚、字幕候補を、共通キーワードリスト、プレゼンテキスト、マスタ字幕を参照して修正する際のＧＵＩ操作については、種々の方法を採用することができる。代表的な操作としては、右クリック、ドラック＆ドロップ、ファンクションキー、特別にアサインされたコマンドキー等が挙げられる。

また、本実施の形態では、スピーカノート生成部１９が、このように編集された字幕をページ単位に分割することによりスピーカノートを生成し、これをプレゼンテーション文書の対応するページに埋め込むことも可能にしている。
図１２は、その場合のスピーカノート生成部１９の動作を示したフローチャートである。
スピーカノート生成部１９は、まず、終了フラグを初期化する(ステップ１６１)。ここで、終了フラグとは、字幕ＤＢ３６から取り出す字幕行が最後であるかどうかを示すフラグである。
次に、スピーカノート生成部１９は、ページごとの字幕文字列(以下、「ページ文字列」という)を記憶するための領域(ページ文字列記憶領域)を初期化する(ステップ１６２)。

そして、字幕ＤＢ３６から字幕行を取り出し(ステップ１６３)、字幕行がまだあるかどうかを判定する(ステップ１６４)。即ち、字幕行が取り出せたかどうかを判定する。
その結果、字幕行が取り出せた場合は、その字幕行に対応するページを特定する(ステップ１６５)。そして、そのページが新しいページであるかどうかを判定し(ステップ１６６)、新しいページでなければ、ステップ１６３で取り出した字幕行を、ページ文字列記憶領域に記憶する(ステップ１６７)。そして、ステップ１６３に戻り、字幕行の取り出し及びページ文字列記憶領域への格納を繰り返す。

一方、ステップ１６４で字幕行が取り出せなかった場合は、終了フラグをセットし(ステップ１６８)、ステップ１６９へ進む。
また、ステップ１６６で新しいページであると判定された場合は、そのままステップ１６９へ進む。
そして、前ページ(これまで着目していたページ)の全ページ文字列を、ページ文字列記憶領域から取り出す(ステップ１６９)。また、プレゼンテーション文書のそのページからスピーカノートを取り出し(ステップ１７０)、スピーカノートが既にあるかどうかを判定する(ステップ１７１)。即ち、スピーカノートが取り出せたかどうかを判定する。

その結果、スピーカノートが取り出せなかった場合は、今回のページ文字列をスピーカノートとして新規に埋め込む(ステップ１７２)。具体的には、プレゼンテーションソフトウェアが、スピーカノートを受け取り、プレゼンテーション文書の該当ページにスピーカノートを埋め込む。
一方、スピーカノートが取り出せた場合は、この取り出したスピーカノートに対し今回のページ文字列を追加してよいかどうかを確認する(ステップ１７３)。尚、この確認方法としては、公知技術を用いればよいので、ここでは説明を割愛する。

その結果、追加してよければ、既に埋め込まれていたスピーカノートに対し、今回のスピーカノートを追加し(ステップ１７４)、ステップ１７５へ進む。具体的には、プレゼンテーションソフトウェアが、スピーカノートを受け取り、プレゼンテーション文書の該当ページにスピーカノートを埋め込む。一方、追加したくなければ、そのままステップ１７５へ進む。
そして、最後に、スピーカノート生成部１９は、終了フラグがセットされているかどうかを判定する(ステップ１７５)。そして、終了フラグがセットされていれば、処理を終了するが、終了フラグがセットされていなければ、ステップ１６２へ戻り、同様の処理を繰り返す。

以上により、図３に示した字幕生成装置１０についての説明を終了する。
ところで、本実施の形態では、共通キーワード生成部１３によって生成された共通キーワードを辞書ＤＢ３５に事前登録し、これを用いて音声認識を行うようにした。
しかしながら、音声認識辞書に対する事前登録機能を利用して事前にプレゼンテーション内容に関する情報を登録する時間がない場合は決して珍しくない。このような場合、主に専門用語の部分において誤認識が発生する。このような誤認識に対しては、共通キーワード等を利用して事後に必要な単語等を登録し、その誤認識された部分に対応する断片的音声を利用して再認識をかけることが可能である。これにより、音声認識結果を大幅に自動修正することができる。ここで、断片的音声の範囲は、フレーズ単位、句読点にはさまれた文節単位、文単位、段落単位、全体等、種々想定することが可能である。一般に音声区間が長い方が認識率は向上する。

次に、本実施の形態における字幕生成装置１０の変形例について説明する。
図３では、キーワードＤＢ３４に記憶された共通キーワードを辞書ＤＢ３５に登録する辞書登録部１４を設けていたが、その代わりに、辞書切替部を設けてもよい。辞書切替部とは、複数用意されたカテゴリー辞書のうち、キーワードＤＢ３４に記憶されたキーワードに適したカテゴリー辞書を、音声認識辞書として割り当てる機能である。例えば、カテゴリー辞書として、コンピュータ、ビジネス、福祉といったカテゴリーの辞書が用意されていたとする。この場合、図４の共通キーワードリストからコンピュータ関連のプレゼンテーションであることが分かるので、コンピュータのカテゴリー辞書が選択されることになる。

図１３は、この辞書切替部の動作例を示したフローチャートである。
まず、辞書切替部は、共通キーワードリストを読み込む(ステップ１８１)。次に、この共通キーワードリストから最適なカテゴリーを決定する(ステップ１８２)。そして、その最適なカテゴリーの辞書ＤＢ３５をロードすることにより、音声認識エンジンの辞書を切り替える(ステップ１８３)。こうすることによっても、音声認識の認識率の向上が期待できる。

尚、以上の説明では、プレゼンテーション前に辞書登録又は辞書切替を行う構成とした。しかしながら、プレゼンテーション前に辞書登録や辞書切替を行う時間がない等の場合は、プレゼンテーション後に辞書登録や辞書切替を行うような構成としてもよい。具体的には、プレゼンテーション後に辞書登録又は辞書切替を行い、プレゼンテーション時に取得して記憶しておいた音声データを用いて、再度音声認識を行うようにしてもよい。或いは、この再度の音声認識は、音声データ全体に対して行うのではなく、誤認識部分についてのみ行うようにしてもよい。尚、この誤認識部分の特定は、音声認識時に得られる確信度に基づいて行うことができる。また、その際のＧＵＩとしては、図４の字幕行のうち、誤認識した字幕行に対応して「再認識」ボタンを設け、このボタンを押下することにより再度音声認識をかけるようにするものが考えられる。

また、以上では、字幕の編集をＧＵＩ操作のみによって行うこととしたが、更に自動化することも可能である。例えば、字幕候補と、共通キーワードやページごとのプレゼンテキストとのマッチングを、特定の範囲の中で行うことも可能である。或いは、音声データにおける音素(文字列に対応する音の片)と、共通キーワードやページごとのプレゼンテキストとの比較を行うようにしてもよい。
更に、上記共通キーワードリストでは、重み付けのみに基づいて表示順序を決定していた。しかしながら、使用頻度に応じて共通キーワードを自動ソートすることも可能である。例えば、「ＩＢＭ」という単語の修正の回数がある一定の回数を超えた場合にそのキーワードの順位をより上位に移動する等である。

更にまた、これまでの説明では、字幕とページとの対応を、字幕と時間とを対応付けた字幕ＤＢ３６、及び、ページと時間とを対応付けたページ時間ＤＢ３７により記憶することとした。しかしながら、必ずしもこのような構成に限らなくてもよい。即ち、字幕とページとを直接対応付けたＤＢを生成するようにしてもよい。また、字幕とページとを対応付けるに当たり、時間情報以外の情報を介在させる構成を採用してもよい。

次に、本実施の形態における検索装置２０について詳細に説明する。
図１４は、本実施の形態における検索装置２０の機能構成を示した図である。この検索装置２０は、検索部２１と、形態素解析部２２と、表示制御部２３と、ページ付プレゼンテキストＤＢ２４と、ページ付字幕ＤＢ２５と、ページ付プレゼン単語ＤＢ２６と、ページ付字幕単語ＤＢ２７と、検索単語記憶部２８とを備える。
検索部２１は、入力された検索文をページ付プレゼンテキストＤＢ２４及びページ付字幕ＤＢ２５から検索し、形態素解析により得られた検索対象の単語(検索単語)をページ付プレゼン単語ＤＢ２６及びページ付字幕単語ＤＢ２７から検索する機能を有する。
形態素解析部２２は、検索文に対し形態素解析を行い、検索単語に分解する機能を有し、表示制御部１８は、検索結果を表示する機能を有する。

ページ付プレゼンテキストＤＢ２４は、ページごとのプレゼンテキストを記憶するＤＢであり、字幕生成装置１０が有するテキスト属性ＤＢ３１に相当する。即ち、字幕生成装置１０からテキスト属性ＤＢ３１をそのまま受け渡されるようにしてもよいし、属性を除くページとプレゼンテキストとの対応のみを受け渡されるようにしてもよい。
また、ページ付字幕ＤＢ２５は、ページごとの字幕を記憶するＤＢであり、字幕生成装置１０が有する字幕ＤＢ３６及びページ時間ＤＢ３７を、ページと字幕との対応に変換したものに相当する。

ページ付プレゼン単語ＤＢ２６は、ページごとの単語を記憶するＤＢであり、ページ付プレゼンテキストＤＢ２４における各プレゼンテキストを形態素解析して得られるＤＢである。
ページ付字幕単語ＤＢ２７は、ページごとの字幕単語を記憶するＤＢであり、ページ付字幕ＤＢ２５における各字幕を形態素解析して得られるＤＢである。
また、検索単語記憶部２８は、入力された検索文を記憶し、その検索文に対し形態素解析が行われると、その結果として得られた検索単語を記憶するメモリである。

尚、これらの各機能は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、検索装置２０のＣＰＵ９０ａが、検索部２１、形態素解析部２２、表示制御部２３の各機能を実現するプログラムを、例えば、磁気ディスク装置９０ｅからメインメモリ９０ｃに読み込むことにより実現される。

例えば、図１５に示すように、「今年度の決算」について検索を行う場合を考える。この場合、字幕にもプレゼンテキストにも「今年度の決算」に一致する文字列は存在しない。従って、検索文に対し形態素解析を行い検索単語(「今年度」、「決算」)に分割し、その検索単語を字幕及びプレゼンテキストから検索する。そして、双方からの検索結果をページごとにマップする。即ち、プレゼンテキストと字幕の双方からの検索結果をページという結びつきで融合することによって最適な検索結果を得ることができる。

図１６は、このような処理を行う検索装置２０の動作を示したフローチャートである。
まず、検索部２１が、検索文を受け取る(ステップ２０１)。次に、ページ付プレゼンテキストＤＢ２４に記憶されたプレゼンテキストと、ページ付字幕ＤＢ２５に記憶された字幕とから、その検索文を検索する(ステップ２０２)。
そして、検索文と一致する文が、プレゼンテキスト又は字幕のいずれかに存在するかどうかを判定する(ステップ２０３)。

その結果、検索文と一致する文がいずれにも存在しないと判定された場合は、検索文、プレゼンテキスト、字幕のそれぞれに対し、形態素解析を行い、単語を取得する(ステップ２０４)。具体的には、検索文から取得された単語は、検索単語記憶部２８に記憶される。また、プレゼンテキストから取得された単語(以下、「プレゼン単語」という)は、ページ付プレゼン単語ＤＢ２６に記憶され、字幕テキストから取得された単語(以下、「字幕単語」という)は、ページ付字幕単語ＤＢ２７に記憶され、検索の対象となる。
そこで、検索部２１は、検索単語記憶部２８に記憶された単語を、プレゼン単語、字幕単語から検索する(ステップ２０５)。
そして、検索単語と一致する単語が、プレゼン単語又は字幕単語のいずれかに存在するかどうかを判定する(ステップ２０６)。

その結果、検索単語と一致する単語がいずれにも存在しないと判定された場合、検索は失敗するので、その旨を表示する。
一方、ステップ２０３で検索文と一致する文がプレゼンテキスト、字幕のいずれかに存在すると判定された場合は、検索文と一致する文が双方に存在するかを判定する。或いは、ステップ２０６で検索単語と一致する単語がプレゼン単語、字幕単語のいずれかに存在すると判定された場合は、検索単語と一致する単語が双方に存在するかを判定する(ステップ２０７)。

その結果、双方に存在するわけではない場合は、従来通りの方法で検索結果の表示を行う。
一方、双方に存在する場合は、プレゼンテキスト(プレゼン単語)からの検索結果と字幕(字幕単語)からの検索結果とをページによって関連付ける(ステップ２０８)。そして、関連付けられた検索結果を表示する(ステップ２０９)。尚、検索結果の提示方法については種々の公知技術が存在するので、ここでは詳しく述べない。

従来は、図１５のような例の場合、字幕、プレゼンテキストのいずれにも「今年度の決算」という文字列が存在しないため、検索は失敗していた。かといって、条件を緩和するとヒット件数が増えすぎてしまい、ユーザが所望の検索結果を得るのが難しかった。このような事態は、字幕やプレゼンテーションという異なるメディアをページという概念で結びつけることができなかったため生じていたのであるが、本実施の形態における検索装置２０によれば、かかる事態は生じない。

次に、本実施の形態の効果について述べる。
出願人は、本実施の形態の効果を実証するため、実際のプレゼンテーションで実験を行った。その結果を図１７に示す。尚、音声認識エンジンとしては、「ＶｉａＶｏｉｃｅＶ１０」を使用した(ViaVoiceは、IBM Corporationの登録商標）。
図示するように、共通キーワードを音声認識辞書に事前に登録することにより、音声認識率の向上が約３％見られた。また、字幕編集の効率の向上についても、従来手法では、手で直接文字列を入力するような修正(手入力修正)が約２１％必要であった。これに対し、本手法を用いれば、手入力修正に代わって、ＧＵＩによる修正(ＧＵＩ修正)により、約６％の誤認識部分を修正することができた。更に、２度目の発表においては、１度目の発表で得たマスタ字幕を用いることにより、ＧＵＩ修正が大幅に増加し、手入力修正が大きく削減された。
発明の背景としても述べた通り、手入力修正による編集時間は編集者のスキルレベルに大きく依存し、かつ、編集者により大きな負担を強いる。逆に、ＧＵＩ修正の方が、コスト、負担とも軽減される。
よって、今回の実験により、編集におけるコスト、負担において大幅な改善が見られた。

また、その他にも、次のような効果が認められる。
まず、本実施の形態によれば、字幕、プレゼンテキスト、マスタ字幕等が連動する。このことも、字幕編集作業を効率化させる一因である。
また、本実施の形態には、プレゼンテーション文書の対応するページにスピーカノートが自動的に挿入されるという効果もある。
更に、オーディオインデクシングとプレゼンテーションインデクシングとをページ単位で関連付けて容易に実現することができる。

本発明の実施の形態におけるシステム構成を示したブロック図である。本発明の実施の形態における字幕生成装置及び検索装置のハードウェア構成を示したブロック図である。本発明の実施の形態における字幕生成装置の機能構成を示したブロック図である。本発明の実施の形態における字幕生成装置による表示例を示した図である。本発明の実施の形態におけるテキスト属性ＤＢ及び単語属性ＤＢの内容の一例を示した図である。本発明の実施の形態における属性重みＤＢの内容の一例を示した図である。本発明の実施の形態における共通キーワード生成部の動作を示したフローチャートである。本発明の実施の形態におけるキーワードＤＢの内容の一例を示した図である。本発明の実施の形態における字幕ＤＢ及びページ時間ＤＢの内容の一例を示した図である。本発明の実施の形態における共通キーワード再生成部の動作を示したフローチャートである。本発明の実施の形態における表示制御部のフォーカス連動時の動作を示したフローチャートである。本発明の実施の形態におけるスピーカノート生成部の動作を示したフローチャートである。本発明の実施の形態における辞書切替部の動作を示したフローチャートである。本発明の実施の形態における検索装置の機能構成を示したブロック図である。本発明の実施の形態における検索装置による表示例を示した図である本発明の実施の形態における検索装置の動作を示したフローチャートである。本発明の実施の形態の効果を説明するための図である。

符号の説明

１０…字幕生成装置、１１…テキスト抽出部、１２…形態素解析部、１３…共通キーワード生成部、１４…辞書登録部、１５…音声認識部、１６…ページ時間記録部、１７…共通キーワード再生成部、１８…表示制御部、１９…スピーカノート生成部、２０…検索装置、２１…検索部、２２…形態素解析部、２３…表示制御部

Claims

プレゼンテーションの音声を認識することによって当該音声に対する字幕を生成するための装置であって、
前記プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出する抽出手段と、
前記抽出手段により抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行う重み付け手段と、
前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから前記抽出手段により抽出されたテキストデータと、前記抽出手段により抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付け手段による重み付けを考慮して行う処理手段と
を備えた、装置。
前記処理手段は、前記字幕の候補の第１の行から第２の行へフォーカスを移動する操作があった場合に、当該第１の行の元となる音声が発せられた時間に参照されていた第１のページと、当該第２の行の元となる音声が発せられた時間に参照されていた第２のページとが異なれば、当該第１のページから前記抽出手段により抽出されたテキストデータを、当該第２のページから前記抽出手段により抽出されたテキストデータに切り替えて表示する、請求項１記載の装置。
前記抽出手段は、前記文書データにおける前記キーワードの属性に応じて、当該キーワードに重み付けを行い、
前記処理手段は、前記キーワードの表示を前記抽出手段による重み付けを更に考慮して行う、請求項１記載の装置。
前記重み付け手段は、前記プレゼンテーションの音声における前記キーワードの出現回数に応じて、当該キーワードに重み付けを行う、請求項１記載の装置。
前記処理手段は、前記抽出手段により抽出された前記キーワードを、前記音声を認識する際に参照される辞書に登録する、請求項１記載の装置。
前記処理手段は、前記抽出手段により抽出された前記キーワードに適したカテゴリーの辞書を、前記音声を認識する際に参照される辞書として設定する、請求項１記載の装置。
前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込む登録手段を更に備えた、請求項１記載の装置。
過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶する記憶手段を更に備え、
前記処理手段は、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項１記載の装置。
前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補と、前記抽出手段により抽出されたテキストデータと、当該字幕の候補と当該テキストデータとの関連付け情報とを記憶する記憶手段と、
前記字幕の候補と前記テキストデータとから、前記関連付け情報を用いて文字列を検索する検索手段と
を更に備えた、請求項１記載の装置。
前記検索手段による検索結果を、当該検索結果に関する前記関連付け情報と共に表示する表示手段を更に備えた、請求項９記載の装置。
プレゼンテーションの音声を認識することによって当該音声に対する字幕をコンピュータが生成するための方法であって、
前記コンピュータが、前記プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出するステップと、
前記コンピュータが、抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行うステップと、
前記コンピュータが、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから抽出されたテキストデータと、抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付けを考慮して行うステップと
を含む、方法。
前記表示するステップでは、前記字幕の候補の第１の行から第２の行へフォーカスを移動する操作があった場合に、当該第１の行の元となる音声が発せられた時間に参照されていた第１のページと、当該第２の行の元となる音声が発せられた時間に参照されていた第２のページとが異なれば、当該第１のページから抽出されたテキストデータを、当該第２のページから抽出されたテキストデータに切り替えて表示する、請求項１１記載の方法。
前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込むステップを更に含む、請求項１１記載の方法。
過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶するステップを更に含み、
前記表示するステップでは、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項１１記載の方法。
コンピュータに、
プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出する機能と、
抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行う機能と、
前記プレゼンテーションの音声を認識することによって得られた字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから抽出されたテキストデータと、抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付けを考慮して行う機能と
を実現させる、プログラム。
前記表示する機能では、前記字幕の候補の第１の行から第２の行へフォーカスを移動する操作があった場合に、当該第１の行の元となる音声が発せられた時間に参照されていた第１のページと、当該第２の行の元となる音声が発せられた時間に参照されていた第２のページとが異なれば、当該第１のページから抽出されたテキストデータを、当該第２のページから抽出されたテキストデータに切り替えて表示する、請求項１５記載のプログラム。
前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込む機能を更に実現させる、請求項１５記載のプログラム。
過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶する機能を更に実現させ、
前記表示する機能では、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項１５記載のプログラム。