JP4218758B2 - 字幕生成装置、字幕生成方法、及びプログラム - Google Patents

字幕生成装置、字幕生成方法、及びプログラム Download PDF

Info

Publication number
JP4218758B2
JP4218758B2 JP2004369784A JP2004369784A JP4218758B2 JP 4218758 B2 JP4218758 B2 JP 4218758B2 JP 2004369784 A JP2004369784 A JP 2004369784A JP 2004369784 A JP2004369784 A JP 2004369784A JP 4218758 B2 JP4218758 B2 JP 4218758B2
Authority
JP
Japan
Prior art keywords
presentation
page
subtitle
keyword
time
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2004369784A
Other languages
English (en)
Other versions
JP2006178087A (ja
Inventor
晃太郎 宮本
則子 根岸
健一 荒川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to JP2004369784A priority Critical patent/JP4218758B2/ja
Priority to US11/338,100 priority patent/US7739116B2/en
Publication of JP2006178087A publication Critical patent/JP2006178087A/ja
Application granted granted Critical
Publication of JP4218758B2 publication Critical patent/JP4218758B2/ja
Priority to US12/538,944 priority patent/US8155969B2/en
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/488Data services, e.g. news ticker
    • H04N21/4884Data services, e.g. news ticker for displaying subtitles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/258Heading extraction; Automatic titling; Numbering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/44Receiver circuitry for the reception of television signals according to analogue transmission standards
    • H04N5/445Receiver circuitry for the reception of television signals according to analogue transmission standards for displaying additional information
    • H04N5/44504Circuit details of the additional information generator, e.g. details of the character or graphics signal generator, overlay mixing circuits

Description

本発明は、プレゼンテーションの音声を認識して字幕を生成する字幕生成装置、その字幕を用いて文字列を検索する検索装置等に関する。
近年、プレゼンテーションソフトウェアを用いたプレゼンテーションの形態が一般的になっている。通常、このような形態のプレゼンテーションは、次のような手順で行われる。まず、パーソナルコンピュータ等でプレゼンテーションソフトウェアを動作させ、プレゼンテーションで参照するページ型リッチ又は平易電子文書(以下、「プレゼンテーション文書」という)を作成する。そして、このプレゼンテーション文書を使用した実際のプレゼンテーションも、パーソナルコンピュータ等でプレゼンテーションソフトウェアを動作させ、そのスライドショー機能によりプレゼンテーション文書を次々と表示することにより行う。
一方で、昨今、聴覚障害者や高齢者等に対してアクセシビリティを確保するため、音声で発信される情報に字幕を付与するという動きがある。例えば、放送を通じて発信される情報については、字幕付与可能な全ての放送番組に2007年までに字幕を付与するという具体的な目標が掲げられている。
こういった背景から、プレゼンテーションの音声に字幕を付与する必要性も高いと考えられる。プレゼンテーション文書にも文字は記述されているが、殆どの場合、記述されているのは断片的な情報に過ぎず、また、発表者がプレゼンテーション文書の通りにプレゼンテーションを行うとも限らないからである。
このような字幕の付与方法としては、音声認識技術を用いて自動的に字幕を作成する方法がある。しかしながら、現状の音声認識技術では、完璧に正しい字幕を作成することは不可能である。従って、結局は、編集者が音声認識結果をチェックして編集する作業を行わなければならない。従来、このような編集作業は、手作業で行われていた。具体的には、音声認識結果を、対応する音声を再生しながら手入力により修正するというものであった。
ところが、この方法では、編集に多大な工数を要し、字幕を生成するためのコストにも大きく影響していた。また、手入力の編集の効率は編集者のスキルレベルに大きく依存し、効率的に字幕を得ようとすれば多くのコストがかかってしまう。更に、長時間の手入力は、編集者に大きな負担を強いることも指摘されている。
また、プレゼンテーションソフトウェアは、プレゼンテーション文書のページの中に注釈情報(以下、「スピーカノート」)を埋め込む機能を有することがある。この機能によって、そのプレゼンテーション文書による模範的なプレゼンテーションを行うマスタスピーカの発表内容をスピーカノートとして埋め込んでおけば、マスタスピーカの発表を多くの人が模倣することも簡単にできる。また、発表者が自分の発表内容をスピーカノートとして埋め込んでおけば、自分の発表用のメモとして使用することもできる。
従来、このようなスピーカノートも、字幕編集作業と同様、手入力で設定されるのが一般的であった。
更に、プレゼンテーションの記録から所望の場面や単語を検索することも行われていた(例えば、特許文献1、2参照)。
具体的には、特許文献1の発明では、電子会議において、動画、音声、ペン入力、マウス入力、キー入力等に基づいて、検索用ファイルを作成している。そして、この検索ファイルにアクセスして会議データを取得しながら会議録を生成している。
また、特許文献2の発明では、プレゼンテーション文書内のテキストデータ又はプレゼンテーションの音声から複数のキーワードを登録している。そして、音声入力によりページの切替を行っている。
特開平7−182365号公報(第6−11頁、第5−11図、第18−21図) 特開2002−268667号公報(第5−8頁、第3、4、9図)
しかしながら、特許文献1、2を始めとした従来技術において、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携することは行われていなかった。
従って、音声認識によって得られた不確定な字幕(以下、「字幕候補」という)を編集する作業においては、無駄が多く発生してしまうという問題点があった。
また、スピーカノートの生成も音声認識とは無関係に行われていたために、効率的ではなく、余計なコストがかかってしまうという問題点があった。
更に、検索処理も、音声やテキストデータといった個々のメディアに着目して行われていたので、満足のいく結果を効率よく得ることができないという問題点もあった。
本発明は、以上のような技術的課題を解決するためになされたものであって、その目的は、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携させることにある。
また、本発明の他の目的は、プレゼンテーションに対する字幕の編集作業の効率を向上することにある。
更に、本発明の他の目的は、スピーカノートを効率よく生成できるようにすることにある。
更にまた、本発明の他の目的は、プレゼンテーションに関する情報検索において満足のいく結果を効率よく得ることができるようにすることにある。
かかる目的のもと、本発明では、プレゼンテーションの音声を認識することで得られた字幕の編集をプレゼンテーション文書全般に出現するキーワードを用いて編集できるようにした。即ち、本発明の装置は、プレゼンテーションの音声を認識することによってその音声に対する字幕を生成するためのものであり、プレゼンテーションで使用される文書データからキーワードを抽出する抽出手段と、この抽出手段により抽出されたキーワードを用いて、字幕の生成、又は、字幕を生成する作業の支援を行う処理手段とを備えている。
ここで、抽出手段は、キーワードに重み付けを行い、処理手段は、その重み付けを考慮した処理を行うことも可能である。
また、処理手段による字幕の生成処理としては、抽出手段により抽出されたキーワードを音声認識辞書に登録する処理、又は、抽出手段により抽出されたキーワードに適したカテゴリーの辞書を音声認識辞書として設定する処理が考えられる。一方、処理手段による字幕の生成作業の支援処理としては、抽出手段により抽出されたキーワードを字幕と共に表示する処理が考えられる。
また、本発明は、文字列を検索するための装置として捉えることもできる。その場合、本発明の装置は、プレゼンテーションの音声を認識することによって得られた第1のテキストデータ(字幕)と、そのプレゼンテーションで使用される文書データから抽出された第2のテキストデータ(プレゼンテキスト)と、第1のテキストデータと第2のテキストデータとの関連付け情報とを記憶する記憶手段と、第1のテキストデータと第2のテキストデータとからなるテキストデータから、関連付け情報を用いて文字列を検索する検索手段とを備えている。
更に、本発明は、プレゼンテーションの文書の情報とプレゼンテーションの音声認識とを融合する方法として捉えることもできる。その場合、本発明の方法は、複数のページを有する文書の処理と、その文書を参照して発せられた音声の処理とを、コンピュータが融合するためのものであり、コンピュータが、音声を認識することによって得られた字幕のうち、文書の特定のページを参照して発せられた音声を認識することによって得られた特定の字幕を決定するステップと、コンピュータが、特定の字幕と特定のページとの対応を記憶するステップとを含んでいる。
そして、この特定の字幕と特定のページとの対応を用いて、例えば、次のような処理を行う。
第一に、特定の字幕を、特定のページに関する特定の情報と共に表示する処理である。
第二に、特定の字幕を、文書の特定のページに埋め込む処理である。
第三に、特定の字幕を対象とした文字列の検索を、特定のページに含まれるテキストデータにまで対象を拡げて行う処理である。
一方、本発明は、コンピュータに所定の機能を実現させるプログラムとして捉えることもできる。その場合、本発明の第1のプログラムは、コンピュータに、プレゼンテーションで使用される文書データからキーワードを抽出する機能と、抽出されたキーワードを用いて、プレゼンテーションの音声に対する字幕の生成、又は、字幕を生成する作業の支援を行う機能とを実現させるものである。また、本発明の第2のプログラムは、コンピュータに、所定の文書を参照して発せられた音声を認識することによって得られた字幕のうち、その文書の特定のページを参照して発せられた音声を認識することによって得られた特定の字幕を決定する機能と、特定の字幕と特定のページとの対応を記憶する機能とを実現させるものである。
本発明によれば、プレゼンテーションの音声認識とプレゼンテーション文書の情報とを有効に連携させることができる。
以下、添付図面を参照して、本発明を実施するための最良の形態(以下、「実施の形態」という)について詳細に説明する。
図1は、本実施の形態における字幕編集システムの構成を示した図である。この字幕編集システムは、字幕生成装置10と、検索装置20とから構成される。
字幕生成装置10は、プレゼンテーション文書に含まれるテキストデータ(以下、「プレゼンテキスト」という)、プレゼンテーションの音声、ページ切替イベント、マスタ字幕を入力し、字幕及びページ単位の字幕(スピーカノート)を出力するものである。ここで、マスタ字幕とは、同じプレゼンテーション文書を使用したマスタスピーカの発表により得られた字幕のことを指す。
また、検索装置20は、ページ単位のプレゼンテキスト、ページ単位の字幕、検索対象の文(検索文)を入力し、検索結果(コンテンツインデックス)を出力するものである。
図2は、本実施の形態における字幕生成装置10及び検索装置20として用いるのに好適なコンピュータのハードウェア構成の例を模式的に示した図である。
図2に示すコンピュータは、演算手段であるCPU(Central Processing Unit)90aと、M/B(マザーボード)チップセット90b及びCPUバスを介してCPU90aに接続されたメインメモリ90cと、同じくM/Bチップセット90b及びAGP(Accelerated Graphics Port)を介してCPU90aに接続されたビデオカード90d及びディスプレイ90jとを備える。また、PCI(Peripheral Component Interconnect)バスを介してM/Bチップセット90bに接続された磁気ディスク装置(HDD)90eと、ネットワークインターフェイス90gとを備える。更に、このPCIバスからブリッジ回路90f及びISA(Industry Standard Architecture)バス等の低速なバスを介してM/Bチップセット90bに接続されたフレキシブルディスクドライブ90hとキーボード/マウス90iとを備える。
尚、図2は本実施の形態を実現するコンピュータのハードウェア構成を例示するに過ぎず、本実施の形態を適用可能であれば、他の種々の構成を取ることができる。例えば、ビデオカード90dを設ける代わりに、ビデオメモリのみを搭載し、CPU90aにてイメージデータを処理する構成としてもよいし、外部記憶装置として、ATA(AT Attachment)やSCSI(Small Computer System Interface)等のインターフェイスを介してCD−R(Compact Disc Recordable)やDVD−RAM(Digital Versatile Disc Random Access Memory)のドライブを設けてもよい。
次に、本実施の形態における字幕生成装置10について詳細に説明する。
図3は、本実施の形態における字幕生成装置10の機能構成を示した図である。この字幕生成装置10は、テキスト抽出部11と、形態素解析部12と、共通キーワード生成部13と、辞書登録部14と、音声認識部15と、ページ時間記録部16と、共通キーワード再生成部17と、表示制御部18と、スピーカノート生成部19とを備える。また、テキスト属性データベース(以下、「DB」という)31と、単語属性DB32と、属性重みDB33と、キーワードDB34と、辞書DB35と、字幕DB36と、ページ時間DB37と、マスタ字幕DB38とを更に備える。
テキスト抽出部11は、プレゼンテーション文書からプレゼンテキスト及びその属性を抽出する機能を有し、テキスト属性DB31は、その抽出されたプレゼンテキスト及びその属性を記憶するDBである。
形態素解析部12は、テキスト属性DB31に記憶されたプレゼンテキストに対し形態素解析を行って単語に分解する機能を有し、単語属性DB32は、その分解によって得られた単語及びその属性を記憶するDBである。
属性重みDB33は、プレゼンテキストの属性とその重み付けを記憶したDBであり、共通キーワード生成部13は、単語属性DB32に記憶された各単語に対し、属性重みDB33を参照して重み付けを行う機能を有する。また、キーワードDB34は、その重み付けされた単語をキーワードとして記憶するDBである。
尚、テキスト抽出部11、形態素解析部12、共通キーワード生成部13は、プレゼンテーション文書から所定の情報を抽出するという観点から、「抽出手段」として把握することも可能である。また、後述する共通キーワード再生成部17をこの「抽出手段」に含めて捉えてもよい。
辞書登録部14は、キーワードDB34に記憶されたキーワードを、音声認識において参照される辞書DB35に登録する機能を有し、音声認識部15は、この辞書DB35を参照して音声認識を行う機能を有する。また、字幕DB36は、この音声認識の結果を字幕として時間とともに記憶するDBである。
ページ時間記録部16は、ページ切替イベントを検出し、それをタイムスタンプとして記録する機能を有し、ページ時間DB37は、ページと時間との対応を記憶するDBである。
共通キーワード再生成部17は、単語属性DB32、属性重みDB33に加え、ページ時間DB37をも参照し、共通キーワードを再生成する機能を有する。
マスタ字幕DB38は、ページごとのマスタ字幕を記憶するDBである。また、表示制御部18は、字幕DB36に記憶された字幕と時間との対応を表示し、かつ、キーワードDB34に記憶されたキーワード、テキスト属性DB31に記憶されたプレゼンテキスト、マスタ字幕DB38に記憶されたマスタ字幕を連動させて表示する機能を有する。
尚、辞書登録部14、表示制御部18は、字幕の生成処理、又は、字幕の生成作業の支援処理を行うという観点から、「処理手段」として把握することも可能である。
また、スピーカノート生成部19は、字幕DB36に記憶された字幕からスピーカノートを生成してプレゼンテーション文書に埋め込む機能を有し、スピーカノートの登録を行うという観点から「登録手段」として把握することも可能な部分である。
尚、これらの各機能は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、字幕生成装置10のCPU90aが、テキスト抽出部11、形態素解析部12、共通キーワード生成部13、辞書登録部14、音声認識部15、ページ時間記録部16、共通キーワード再生成部17、表示制御部18、スピーカノート生成部19の各機能を実現するプログラムを、例えば、磁気ディスク装置90eからメインメモリ90cに読み込むことにより実現される。
このような機能構成を有する字幕生成装置10によって、図4に示すような表示がなされる。図示するように、画面上には、字幕候補表示領域10aと、共通キーワードリスト表示領域10bと、プレゼンテキスト表示領域10cと、マスタ字幕表示領域10dとが設けられている。
字幕候補表示領域10aには、「これまでのIBMの取り組みはオンデマンドビジネスを実現する上での過程にすぎません。」という音声の認識結果が、形態素解析に基づく最小単位の文字列(以下、「字幕行」という)ごとに表示されている。「行」欄には、各字幕行がその音声ファイル全体の先頭から何行目に位置するかが表示される。「開始」欄には、各字幕行に対応する音声がその音声ファイル全体の先頭から何秒経過した時に流れるかが表示される。
また、共通キーワードリスト表示領域10bには、プレゼンテーション文書に出現するキーワードがその重みの高い順に一定の数だけ表示される。プレゼンテキスト表示領域10cには、字幕候補表示領域10aに表示された字幕に対応するページに含まれるプレゼンテキストが表示される。マスタ字幕表示領域10dには、字幕候補表示領域10aに表示された字幕に対応するページについての過去のプレゼンテーションから得られたマスタ字幕が表示される。
次に、字幕生成装置10の動作について説明する。
(プレゼンテーション前の動作)
まず、テキスト抽出部11が、プレゼンテーションソフトウェアからプレゼンテーション文書に含まれるプレゼンテキスト及びその属性を受け取り、ページごとに、テキスト属性DB31に記憶する。ここで、属性とは、テキストがタイトルであるかどうか、テキストの文字サイズ、テキストに下線等の装飾が施されているかどうか等の情報である。
その結果、テキスト属性DB31には、例えば、図5(a)に示すような情報が格納される。尚、プレゼンテキストに対する属性としては、「アクセシビリティの意義」に対する属性のように2つ以上存在する場合もある。その場合は、全ての属性を格納するものとする。
また、形態素解析部12は、テキスト属性DB31に記憶されたプレゼンテキストを形態素解析することにより単語に分解し、単語属性DB32に記憶する。尚、形態素解析の手法は、公知のものを用いればよいので、ここでは詳しい説明を省略する。
その結果、単語属性DB32には、例えば、図5(b)に示すような情報が格納される。
単語属性DB32への情報の格納が完了すると、共通キーワード生成部13がプレゼンテーション文書に共通のキーワードを決定する動作が開始する。プレゼンテーション文書のページの中には、画像等が中心になっていて意味がある文字列を殆ど抽出できないケースもあるので、プレゼンテーション文書全般に共通するキーワードを抽出するのである。
共通キーワード生成部13では、各単語の属性に応じて重み付けを行いながら、キーワードを選定する。そこで、この属性と重み付けとの対応が事前に記憶された属性重みDB33について説明しておく。
図6に、属性重みDB33の一例を示す。タイトル、文字サイズ、下線付き、太字等の属性に対し、重みが定義されている。例えば、同じ文字であっても、文字サイズが大きければ、そのキーワードが重要であり、それがタイトルとして用いられていれば更に重要であると判定できるようになっている。尚、図中の「代替テキスト」とは、画像等に対して付与された文字列で、スライドショー時等においては可視化されていないが、特定の操作に応じて可視化される文字列のことである。
次に、共通キーワード生成部13の動作について詳細に説明する。
図7は、共通キーワード生成部13の動作を示したフローチャートである。
まず、共通キーワード生成部13は、単語属性DB32から単語及びその属性を取り出す(ステップ101)。次に、単語がまだあるかどうかを判定する(ステップ102)。即ち、ステップ101で単語が取り出せたかどうかを判定する。
その結果、単語が取り出せなければ、処理を終了する。一方、単語が取り出せれば、その単語の属性重みを初期化し(ステップ103)、属性重みDB33から属性に対する重みを取り出して加算する(ステップ104)。尚、属性は1つとは限らないので、属性がまだあるかどうかを判定し(ステップ105)、属性がまだあれば、ステップ104を繰り返す。即ち、属性の数だけ重みの加算を行う。
重みが決定されると、キーワードDB34を参照し(ステップ106)、その単語が既にあるかどうかを判定する(ステップ107)。
その結果、単語がなければ、その単語と重みとを新規に登録する(ステップ108)。一方、既にあれば、その単語に対し既に登録された重みに、今回算出された重みを加算する(ステップ109)。
これにより、キーワードDB34には、例えば、図8に示すような情報が格納される。ここでは、キーワードは、重みの高い順にソートされて記憶されている。
辞書登録部14は、このキーワードDB34に登録されたキーワードを辞書DB35に登録する。尚、この辞書登録は、音声認識エンジンにおける公知の技術を用いて行うことができる。
(プレゼンテーション時の動作)
発表者がプレゼンテーションを行うと、音声認識部15が、辞書DB35を参照してプレゼンテーションの音声の認識を行う。即ち、プレゼンテーションの開始からの時間と音声認識結果との対応を時々刻々と取得する。そして、この時間と音声認識結果との対応は、字幕DB36に格納される。尚、ここでの音声認識も、公知の技術を用いて行うことができる。
これにより、字幕DB36には、図9(a)に示すような情報が格納される。
また、プレゼンテーションにおいては、発表者等がそのプレゼンテーションの音声に合わせてページの切替を行う。そこで、ページ時間記録部16は、ページ切替イベントを検出し、ページと時間との対応をページ時間DB37に記録する。
これにより、ページ時間DB37には、図9(b)に示すような情報が格納される。ここでは、ページに対し、そのページに切り替わった時間を記録するようにしている。
尚、ここで記録する時間も、音声認識部15が取得する時間と同様、プレゼンテーションの開始からの時間とすればよい。例えば、字幕生成装置10がプレゼンテーション開始の指示を受けてタイマをスタートさせ、同じタイマのカウント値を音声認識部15とページ時間記録部16とが共有することが考えられる。
その後、共通キーワード再生成部17が、ページ時間DB37に記憶された情報を用いて、キーワードの重み付けを再度行う。
図10は、その場合の共通キーワード再生成部17の動作を示したフローチャートである。
まず、共通キーワード再生成部17は、キーワードDB34を初期化する(ステップ121)。そして、単語属性DB32から単語、その属性、その単語が現れたページの情報を取り出す(ステップ122)。次に、単語がまだあるかどうかを判定する(ステップ123)。即ち、ステップ122で単語が取り出せたかどうかを判定する。
その結果、単語が取り出せなければ、処理を終了する。一方、単語が取り出せれば、ページ時間DB37を参照し、そのページがプレゼンテーションで参照された時間に基づく重みを算出する(ステップ124)。
尚、ページ時間DB37には、ページとそのページに切り替えた時間との対応が記録されているので、あるページが参照されていた時間は、そのページに切り替えた時間をその次のページに切り替えた時間から減ずることにより求めることができる。あるページを参照していた時間が限りなく0に近い場合、そのページは参照されなかったと考えることができる。このようなページのみに現れる単語については、重み付けをしない。参照されなかったページのみに現れる単語は、プレゼンテーションの音声にも出現しない可能性が高いと判断できるからである。即ち、この共通キーワード再生成部17は、より一般的には、プレゼンテーションの音声におけるキーワードの出現回数に応じて重み付けを行うものであるということができる。
また、ページを参照していた時間に基づいて重み付けを求める方法としては、単なる比例関係に基づくものを始め、指数関数や2次関数を用いる方法等、既知の種々の計算方法を採用することが可能である。
そして、その単語の属性重みを初期化し(ステップ125)、属性重みDB33から属性に対する重みを取り出して加算する(ステップ126)。尚、属性は1つとは限らないので、属性がまだあるかどうかを判定し(ステップ127)、属性がまだあれば、ステップ126を繰り返す。即ち、属性の数だけ重みの加算を行う。
重みが決定されると、キーワードDB34を参照し(ステップ128)、その単語が既にあるかどうかを判定する(ステップ129)。
その結果、単語がなければ、その単語と重みとを新規に登録する(ステップ130)。一方、既にあれば、その単語に対し既に登録された重みに、今回算出された重みを加算する(ステップ131)。
ところで、このようにして生成される共通キーワードは、「プレゼンテーションのバージョン集合に含まれる単語のうち、時間と属性の重みに基づいて重要度が高いと判断されたもの」と定義することができる。尚、プレゼンテーションのバージョン集合とは、同じプレゼンテーション文書を用いた複数のプレゼンテーションの集合を意味する。同じプレゼンテーション文書を用いたとしてもプレゼンテーションは1回とは限らないからである。そして、プレゼンテーションのバージョンによって、共通キーワードの選定に有益かどうかの違いがあることも考えられるので、このような違いを考慮して重み付けを行うことも可能である。
ここで、共通キーワードに対する重みTF’は、具体的には、次のような数式で表現することができる。但し、Wvはプレゼンテーションのバージョンに基づく重みを示し、Wtは各語の属性に基づく重みを示す。また、tは語を示し、tpは各ページについての参照時間の配列を示し、tpiはtpから得られる特定のページの参照時間を示す。更に、Nrはプレゼンテーションの数を示し、Npはページの数を示し、Naは各ページにおける語「t」の数を示す。
Figure 0004218758
尚、これに類似する手法として、TF−IDF(TFIDF)法がある。このTF−IDF法は、インターネットからキーワードの情報を検索する多くの手法のベースとなっている。ここで、TFとは、Term Frequencyの略で、特定の文書の中の単語の出現率を表し、IDFとは、Inverted Document Frequencyの略で、その単語の特異性を表している。TF−IDF法は、これらの指標に基づいて、文書における単語の重要度を表すものである。
ここで、TF−IDF法において、単語の重要度は、具体的には、次のような数式で表現される。但し、tは語を示し、tfは文書における語「t」の数を示し、Nは文書の数を示し、nは語「t」を含む文書の数を示す。
Figure 0004218758
ここで、本実施の形態の手法とTF−IDF法との違いについて補足しておく。
1)本実施の形態の手法では、プレゼンテーション文書群(プレゼンテーション群)からキーワード自体を特定するものであるが、TF−IDF法は、キーワードがどの文書にとって重要であるかを算出するものである。
2)本実施の形態の手法では、キーワードの属性を考慮してその重み付けを行っているが、TF−IDF法では、そのような重み付けを行っていない。
3)実際のプレゼンテーションでは、プレゼンテーション文書の全てのページが使用されるとは限らないし、また、全てのページが均等に使用されるとは限らない。よって、本実施の形態の手法では、キーワードを含むページについての発表時間を考慮してその重み付けを行っている。これに対し、TF−IDF法では、そのような重み付けを行っていない。
4)上述したように、プレゼンテーションは1回とは限らない。つまり、プレゼンテーションのバージョン集合が発生する。よって、本実施の形態の手法では、単一のプレゼンテーション文書のみならず、プレゼンテーションのバージョン集合を用いて重み付けを行っている。これに対し、TF−IDF法では、そのような重み付けを行っていない。
5)上述したように、バージョンによってそのプレゼンテーションの有益性は一律であるとは限らない。よって、本実施の形態の手法では、キーワードが現れたプレゼンテーションのバージョンを考慮してその重み付けを行っている。これに対し、TF−IDF法では、そのような重み付けを行っていない。
(プレゼンテーション後の動作)
プレゼンテーションが終了すると、表示制御部18は、ディスプレイ90jに図4のような表示がなされるよう制御する。具体的には、字幕DB36から時間と音声認識結果との対応を読み出し、字幕候補表示領域10aに表示する。また、キーワードDB34からキーワードを読み出し、共通キーワードリスト表示領域10bに表示する。更に、ページ時間DB37を参照し、時間情報に基づいて音声認識結果に対応するページを特定する。そして、テキスト属性DB31からそのページに含まれるプレゼンテキストを読み出してプレゼンテキスト表示領域10cに表示し、マスタ字幕DB38からそのページについてのマスタ字幕を読み出してマスタ字幕表示領域10dに表示する。
尚、マスタ字幕とは、上述したように、同じプレゼンテーション文書を使用したプレゼンテーションの音声を認識することで得られた字幕であるが、このように同じプレゼンテーション文書を再利用するケースとしては、例えば、次のようなものが考えられる。
A.あるメーカが開発した商品を紹介するプレゼンテーションをまずそのメーカが行う。それを受けて、ISV(Independent Software Vendor)等が諸々の営業の現場で同様のプレゼンテーションを行う。
B.講義、セッション等に関する同一のプレゼンテーションを、定員、クラス割りの都合で複数のクラスで行う。或いは、ある年度と同じ講義を次の年度も同様に行う。
C.ある社員が行ったプレゼンテーションの内容を、その部下や同僚が引き継ぐ。
D.重要な発表の前にリハーサルを行って予め字幕を生成しておき、後述する本手法による実際のプレゼンテーションにおける字幕付けを速やかに行えるようにする。
従来、以上のように同一のプレゼンテーション文書を用いたプレゼンテーションであっても、字幕はその都度編集するほかなかったが、本実施の形態では、このようなマスタ字幕も、今回の字幕の編集に役立てるようにしている。
既述のように、表示制御部18は、あるページについての字幕候補に対し、そのページのプレゼンテキスト及びマスタ字幕を表示する。従って、字幕候補に対するフォーカスが他のページへ移動した場合は、それに連動してプレゼンテキスト及びマスタ字幕の表示が切り替わるように制御する。
図11は、その場合の表示制御部18の動作を示したフローチャートである。
まず、表示制御部18は、ユーザからのキー入力があると、それがフォーカス移動のキー入力であるかどうかを判定する(ステップ141)。その結果、フォーカス移動のキー入力でなければ、キー入力による割り込み前の処理に復帰し、そのキー入力に応じた処理を行う。
一方、フォーカス移動のキー入力である場合、又は、その他のフォーカス移動のイベント(マウスイベント等)である場合は、フォーカス移動先の字幕行に対応するページを検出する(ステップ142)。具体的には、字幕DB36に字幕と時間との対応が記憶されているので、まず、移動先の字幕行に対応する時間を取得する。そして、ページ時間DB37にページと時間との対応が記憶されているので、その時間に対応するページを取得する。
また、現在の字幕行に対応するページも取得する(ステップ143)。これは、ステップ142と同様の手順で既に取得してメモリ上に記憶しているものがあれば、それをそのまま用いることもできる。
そして、表示制御部18は、新たにフォーカスを受けた字幕行のページがそれまでのページから変化したかどうかを判定する(ステップ144)。
その結果、ページが変化したと判定されなかった場合は、割り込み前の処理に復帰する。一方、ページが変化したと判定された場合は、プレゼンテキストの表示を新たなページに対応するものに切り替える(ステップ145)と共に、マスタ字幕も新たなページに対応して自動的に切り替える(ステップ146)。
本実施の形態では、このように字幕候補、プレゼンテキスト、マスタ字幕を連動させながら表示し、また、共通キーワードリストを表示することにより、字幕編集作業の支援を行う。そして、このような編集後の字幕は、字幕DB36に記憶されることになる。
尚、字幕候補を、共通キーワードリスト、プレゼンテキスト、マスタ字幕を参照して修正する際のGUI操作については、種々の方法を採用することができる。代表的な操作としては、右クリック、ドラック&ドロップ、ファンクションキー、特別にアサインされたコマンドキー等が挙げられる。
また、本実施の形態では、スピーカノート生成部19が、このように編集された字幕をページ単位に分割することによりスピーカノートを生成し、これをプレゼンテーション文書の対応するページに埋め込むことも可能にしている。
図12は、その場合のスピーカノート生成部19の動作を示したフローチャートである。
スピーカノート生成部19は、まず、終了フラグを初期化する(ステップ161)。ここで、終了フラグとは、字幕DB36から取り出す字幕行が最後であるかどうかを示すフラグである。
次に、スピーカノート生成部19は、ページごとの字幕文字列(以下、「ページ文字列」という)を記憶するための領域(ページ文字列記憶領域)を初期化する(ステップ162)。
そして、字幕DB36から字幕行を取り出し(ステップ163)、字幕行がまだあるかどうかを判定する(ステップ164)。即ち、字幕行が取り出せたかどうかを判定する。
その結果、字幕行が取り出せた場合は、その字幕行に対応するページを特定する(ステップ165)。そして、そのページが新しいページであるかどうかを判定し(ステップ166)、新しいページでなければ、ステップ163で取り出した字幕行を、ページ文字列記憶領域に記憶する(ステップ167)。そして、ステップ163に戻り、字幕行の取り出し及びページ文字列記憶領域への格納を繰り返す。
一方、ステップ164で字幕行が取り出せなかった場合は、終了フラグをセットし(ステップ168)、ステップ169へ進む。
また、ステップ166で新しいページであると判定された場合は、そのままステップ169へ進む。
そして、前ページ(これまで着目していたページ)の全ページ文字列を、ページ文字列記憶領域から取り出す(ステップ169)。また、プレゼンテーション文書のそのページからスピーカノートを取り出し(ステップ170)、スピーカノートが既にあるかどうかを判定する(ステップ171)。即ち、スピーカノートが取り出せたかどうかを判定する。
その結果、スピーカノートが取り出せなかった場合は、今回のページ文字列をスピーカノートとして新規に埋め込む(ステップ172)。具体的には、プレゼンテーションソフトウェアが、スピーカノートを受け取り、プレゼンテーション文書の該当ページにスピーカノートを埋め込む。
一方、スピーカノートが取り出せた場合は、この取り出したスピーカノートに対し今回のページ文字列を追加してよいかどうかを確認する(ステップ173)。尚、この確認方法としては、公知技術を用いればよいので、ここでは説明を割愛する。
その結果、追加してよければ、既に埋め込まれていたスピーカノートに対し、今回のスピーカノートを追加し(ステップ174)、ステップ175へ進む。具体的には、プレゼンテーションソフトウェアが、スピーカノートを受け取り、プレゼンテーション文書の該当ページにスピーカノートを埋め込む。一方、追加したくなければ、そのままステップ175へ進む。
そして、最後に、スピーカノート生成部19は、終了フラグがセットされているかどうかを判定する(ステップ175)。そして、終了フラグがセットされていれば、処理を終了するが、終了フラグがセットされていなければ、ステップ162へ戻り、同様の処理を繰り返す。
以上により、図3に示した字幕生成装置10についての説明を終了する。
ところで、本実施の形態では、共通キーワード生成部13によって生成された共通キーワードを辞書DB35に事前登録し、これを用いて音声認識を行うようにした。
しかしながら、音声認識辞書に対する事前登録機能を利用して事前にプレゼンテーション内容に関する情報を登録する時間がない場合は決して珍しくない。このような場合、主に専門用語の部分において誤認識が発生する。このような誤認識に対しては、共通キーワード等を利用して事後に必要な単語等を登録し、その誤認識された部分に対応する断片的音声を利用して再認識をかけることが可能である。これにより、音声認識結果を大幅に自動修正することができる。ここで、断片的音声の範囲は、フレーズ単位、句読点にはさまれた文節単位、文単位、段落単位、全体等、種々想定することが可能である。一般に音声区間が長い方が認識率は向上する。
次に、本実施の形態における字幕生成装置10の変形例について説明する。
図3では、キーワードDB34に記憶された共通キーワードを辞書DB35に登録する辞書登録部14を設けていたが、その代わりに、辞書切替部を設けてもよい。辞書切替部とは、複数用意されたカテゴリー辞書のうち、キーワードDB34に記憶されたキーワードに適したカテゴリー辞書を、音声認識辞書として割り当てる機能である。例えば、カテゴリー辞書として、コンピュータ、ビジネス、福祉といったカテゴリーの辞書が用意されていたとする。この場合、図4の共通キーワードリストからコンピュータ関連のプレゼンテーションであることが分かるので、コンピュータのカテゴリー辞書が選択されることになる。
図13は、この辞書切替部の動作例を示したフローチャートである。
まず、辞書切替部は、共通キーワードリストを読み込む(ステップ181)。次に、この共通キーワードリストから最適なカテゴリーを決定する(ステップ182)。そして、その最適なカテゴリーの辞書DB35をロードすることにより、音声認識エンジンの辞書を切り替える(ステップ183)。こうすることによっても、音声認識の認識率の向上が期待できる。
尚、以上の説明では、プレゼンテーション前に辞書登録又は辞書切替を行う構成とした。しかしながら、プレゼンテーション前に辞書登録や辞書切替を行う時間がない等の場合は、プレゼンテーション後に辞書登録や辞書切替を行うような構成としてもよい。具体的には、プレゼンテーション後に辞書登録又は辞書切替を行い、プレゼンテーション時に取得して記憶しておいた音声データを用いて、再度音声認識を行うようにしてもよい。或いは、この再度の音声認識は、音声データ全体に対して行うのではなく、誤認識部分についてのみ行うようにしてもよい。尚、この誤認識部分の特定は、音声認識時に得られる確信度に基づいて行うことができる。また、その際のGUIとしては、図4の字幕行のうち、誤認識した字幕行に対応して「再認識」ボタンを設け、このボタンを押下することにより再度音声認識をかけるようにするものが考えられる。
また、以上では、字幕の編集をGUI操作のみによって行うこととしたが、更に自動化することも可能である。例えば、字幕候補と、共通キーワードやページごとのプレゼンテキストとのマッチングを、特定の範囲の中で行うことも可能である。或いは、音声データにおける音素(文字列に対応する音の片)と、共通キーワードやページごとのプレゼンテキストとの比較を行うようにしてもよい。
更に、上記共通キーワードリストでは、重み付けのみに基づいて表示順序を決定していた。しかしながら、使用頻度に応じて共通キーワードを自動ソートすることも可能である。例えば、「IBM」という単語の修正の回数がある一定の回数を超えた場合にそのキーワードの順位をより上位に移動する等である。
更にまた、これまでの説明では、字幕とページとの対応を、字幕と時間とを対応付けた字幕DB36、及び、ページと時間とを対応付けたページ時間DB37により記憶することとした。しかしながら、必ずしもこのような構成に限らなくてもよい。即ち、字幕とページとを直接対応付けたDBを生成するようにしてもよい。また、字幕とページとを対応付けるに当たり、時間情報以外の情報を介在させる構成を採用してもよい。
次に、本実施の形態における検索装置20について詳細に説明する。
図14は、本実施の形態における検索装置20の機能構成を示した図である。この検索装置20は、検索部21と、形態素解析部22と、表示制御部23と、ページ付プレゼンテキストDB24と、ページ付字幕DB25と、ページ付プレゼン単語DB26と、ページ付字幕単語DB27と、検索単語記憶部28とを備える。
検索部21は、入力された検索文をページ付プレゼンテキストDB24及びページ付字幕DB25から検索し、形態素解析により得られた検索対象の単語(検索単語)をページ付プレゼン単語DB26及びページ付字幕単語DB27から検索する機能を有する。
形態素解析部22は、検索文に対し形態素解析を行い、検索単語に分解する機能を有し、表示制御部18は、検索結果を表示する機能を有する。
ページ付プレゼンテキストDB24は、ページごとのプレゼンテキストを記憶するDBであり、字幕生成装置10が有するテキスト属性DB31に相当する。即ち、字幕生成装置10からテキスト属性DB31をそのまま受け渡されるようにしてもよいし、属性を除くページとプレゼンテキストとの対応のみを受け渡されるようにしてもよい。
また、ページ付字幕DB25は、ページごとの字幕を記憶するDBであり、字幕生成装置10が有する字幕DB36及びページ時間DB37を、ページと字幕との対応に変換したものに相当する。
ページ付プレゼン単語DB26は、ページごとの単語を記憶するDBであり、ページ付プレゼンテキストDB24における各プレゼンテキストを形態素解析して得られるDBである。
ページ付字幕単語DB27は、ページごとの字幕単語を記憶するDBであり、ページ付字幕DB25における各字幕を形態素解析して得られるDBである。
また、検索単語記憶部28は、入力された検索文を記憶し、その検索文に対し形態素解析が行われると、その結果として得られた検索単語を記憶するメモリである。
尚、これらの各機能は、ソフトウェアとハードウェア資源とが協働することにより実現される。具体的には、検索装置20のCPU90aが、検索部21、形態素解析部22、表示制御部23の各機能を実現するプログラムを、例えば、磁気ディスク装置90eからメインメモリ90cに読み込むことにより実現される。
例えば、図15に示すように、「今年度の決算」について検索を行う場合を考える。この場合、字幕にもプレゼンテキストにも「今年度の決算」に一致する文字列は存在しない。従って、検索文に対し形態素解析を行い検索単語(「今年度」、「決算」)に分割し、その検索単語を字幕及びプレゼンテキストから検索する。そして、双方からの検索結果をページごとにマップする。即ち、プレゼンテキストと字幕の双方からの検索結果をページという結びつきで融合することによって最適な検索結果を得ることができる。
図16は、このような処理を行う検索装置20の動作を示したフローチャートである。
まず、検索部21が、検索文を受け取る(ステップ201)。次に、ページ付プレゼンテキストDB24に記憶されたプレゼンテキストと、ページ付字幕DB25に記憶された字幕とから、その検索文を検索する(ステップ202)。
そして、検索文と一致する文が、プレゼンテキスト又は字幕のいずれかに存在するかどうかを判定する(ステップ203)。
その結果、検索文と一致する文がいずれにも存在しないと判定された場合は、検索文、プレゼンテキスト、字幕のそれぞれに対し、形態素解析を行い、単語を取得する(ステップ204)。具体的には、検索文から取得された単語は、検索単語記憶部28に記憶される。また、プレゼンテキストから取得された単語(以下、「プレゼン単語」という)は、ページ付プレゼン単語DB26に記憶され、字幕テキストから取得された単語(以下、「字幕単語」という)は、ページ付字幕単語DB27に記憶され、検索の対象となる。
そこで、検索部21は、検索単語記憶部28に記憶された単語を、プレゼン単語、字幕単語から検索する(ステップ205)。
そして、検索単語と一致する単語が、プレゼン単語又は字幕単語のいずれかに存在するかどうかを判定する(ステップ206)。
その結果、検索単語と一致する単語がいずれにも存在しないと判定された場合、検索は失敗するので、その旨を表示する。
一方、ステップ203で検索文と一致する文がプレゼンテキスト、字幕のいずれかに存在すると判定された場合は、検索文と一致する文が双方に存在するかを判定する。或いは、ステップ206で検索単語と一致する単語がプレゼン単語、字幕単語のいずれかに存在すると判定された場合は、検索単語と一致する単語が双方に存在するかを判定する(ステップ207)。
その結果、双方に存在するわけではない場合は、従来通りの方法で検索結果の表示を行う。
一方、双方に存在する場合は、プレゼンテキスト(プレゼン単語)からの検索結果と字幕(字幕単語)からの検索結果とをページによって関連付ける(ステップ208)。そして、関連付けられた検索結果を表示する(ステップ209)。尚、検索結果の提示方法については種々の公知技術が存在するので、ここでは詳しく述べない。
従来は、図15のような例の場合、字幕、プレゼンテキストのいずれにも「今年度の決算」という文字列が存在しないため、検索は失敗していた。かといって、条件を緩和するとヒット件数が増えすぎてしまい、ユーザが所望の検索結果を得るのが難しかった。このような事態は、字幕やプレゼンテーションという異なるメディアをページという概念で結びつけることができなかったため生じていたのであるが、本実施の形態における検索装置20によれば、かかる事態は生じない。
次に、本実施の形態の効果について述べる。
出願人は、本実施の形態の効果を実証するため、実際のプレゼンテーションで実験を行った。その結果を図17に示す。尚、音声認識エンジンとしては、「ViaVoice V10」を使用した(ViaVoiceは、IBM Corporationの登録商標)。
図示するように、共通キーワードを音声認識辞書に事前に登録することにより、音声認識率の向上が約3%見られた。また、字幕編集の効率の向上についても、従来手法では、手で直接文字列を入力するような修正(手入力修正)が約21%必要であった。これに対し、本手法を用いれば、手入力修正に代わって、GUIによる修正(GUI修正)により、約6%の誤認識部分を修正することができた。更に、2度目の発表においては、1度目の発表で得たマスタ字幕を用いることにより、GUI修正が大幅に増加し、手入力修正が大きく削減された。
発明の背景としても述べた通り、手入力修正による編集時間は編集者のスキルレベルに大きく依存し、かつ、編集者により大きな負担を強いる。逆に、GUI修正の方が、コスト、負担とも軽減される。
よって、今回の実験により、編集におけるコスト、負担において大幅な改善が見られた。
また、その他にも、次のような効果が認められる。
まず、本実施の形態によれば、字幕、プレゼンテキスト、マスタ字幕等が連動する。このことも、字幕編集作業を効率化させる一因である。
また、本実施の形態には、プレゼンテーション文書の対応するページにスピーカノートが自動的に挿入されるという効果もある。
更に、オーディオインデクシングとプレゼンテーションインデクシングとをページ単位で関連付けて容易に実現することができる。
本発明の実施の形態におけるシステム構成を示したブロック図である。 本発明の実施の形態における字幕生成装置及び検索装置のハードウェア構成を示したブロック図である。 本発明の実施の形態における字幕生成装置の機能構成を示したブロック図である。 本発明の実施の形態における字幕生成装置による表示例を示した図である。 本発明の実施の形態におけるテキスト属性DB及び単語属性DBの内容の一例を示した図である。 本発明の実施の形態における属性重みDBの内容の一例を示した図である。 本発明の実施の形態における共通キーワード生成部の動作を示したフローチャートである。 本発明の実施の形態におけるキーワードDBの内容の一例を示した図である。 本発明の実施の形態における字幕DB及びページ時間DBの内容の一例を示した図である。 本発明の実施の形態における共通キーワード再生成部の動作を示したフローチャートである。 本発明の実施の形態における表示制御部のフォーカス連動時の動作を示したフローチャートである。 本発明の実施の形態におけるスピーカノート生成部の動作を示したフローチャートである。 本発明の実施の形態における辞書切替部の動作を示したフローチャートである。 本発明の実施の形態における検索装置の機能構成を示したブロック図である。 本発明の実施の形態における検索装置による表示例を示した図である 本発明の実施の形態における検索装置の動作を示したフローチャートである。 本発明の実施の形態の効果を説明するための図である。
符号の説明
10…字幕生成装置、11…テキスト抽出部、12…形態素解析部、13…共通キーワード生成部、14…辞書登録部、15…音声認識部、16…ページ時間記録部、17…共通キーワード再生成部、18…表示制御部、19…スピーカノート生成部、20…検索装置、21…検索部、22…形態素解析部、23…表示制御部

Claims (18)

  1. プレゼンテーションの音声を認識することによって当該音声に対する字幕を生成するための装置であって、
    前記プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出する抽出手段と、
    前記抽出手段により抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行う重み付け手段と、
    前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから前記抽出手段により抽出されたテキストデータと、前記抽出手段により抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付け手段による重み付けを考慮して行う処理手段と
    を備えた、装置。
  2. 前記処理手段は、前記字幕の候補の第1の行から第2の行へフォーカスを移動する操作があった場合に、当該第1の行の元となる音声が発せられた時間に参照されていた第1のページと、当該第2の行の元となる音声が発せられた時間に参照されていた第2のページとが異なれば、当該第1のページから前記抽出手段により抽出されたテキストデータを、当該第2のページから前記抽出手段により抽出されたテキストデータに切り替えて表示する、請求項1記載の装置。
  3. 前記抽出手段は、前記文書データにおける前記キーワードの属性に応じて、当該キーワードに重み付けを行い、
    前記処理手段は、前記キーワードの表示を前記抽出手段による重み付けを更に考慮して行う請求項1記載の装置。
  4. 前記重み付け手段は、前記プレゼンテーションの音声における前記キーワードの出現回数に応じて、当該キーワードに重み付けを行う、請求項1記載の装置。
  5. 前記処理手段は、前記抽出手段により抽出された前記キーワードを、前記音声を認識する際に参照される辞書に登録する、請求項1記載の装置。
  6. 前記処理手段は、前記抽出手段により抽出された前記キーワードに適したカテゴリーの辞書を、前記音声を認識する際に参照される辞書として設定する、請求項1記載の装置。
  7. 前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込む登録手段を更に備えた、請求項1記載の装置。
  8. 過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶する記憶手段を更に備え、
    前記処理手段は、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項1記載の装置。
  9. 前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補と、前記抽出手段により抽出されたテキストデータと、当該字幕の候補と当該テキストデータとの関連付け情報とを記憶する記憶手段と、
    前記字幕の候補と前記テキストデータとから、前記関連付け情報を用いて文字列を検索する検索手段と
    を更に備えた、請求項1記載の装置。
  10. 前記検索手段による検索結果を、当該検索結果に関する前記関連付け情報と共に表示する表示手段を更に備えた、請求項9記載の装置。
  11. プレゼンテーションの音声を認識することによって当該音声に対する字幕をコンピュータが生成するための方法であって、
    前記コンピュータが、前記プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出するステップと、
    前記コンピュータが、抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行うステップと、
    前記コンピュータが、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから抽出されたテキストデータと、抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付けを考慮して行うステップと
    を含む、方法。
  12. 前記表示するステップでは、前記字幕の候補の第1の行から第2の行へフォーカスを移動する操作があった場合に、当該第1の行の元となる音声が発せられた時間に参照されていた第1のページと、当該第2の行の元となる音声が発せられた時間に参照されていた第2のページとが異なれば、当該第1のページから抽出されたテキストデータを、当該第2のページから抽出されたテキストデータに切り替えて表示する、請求項11記載の方法。
  13. 前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込むステップを更に含む、請求項11記載の方法。
  14. 過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶するステップを更に含み、
    前記表示するステップでは、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項11記載の方法。
  15. コンピュータに、
    プレゼンテーションで使用される文書データからテキストデータとキーワードとを抽出する機能と、
    抽出された前記キーワードに対し、当該キーワードが出現するページが前記プレゼンテーションにおいて参照された時間に基づいて重み付けを行う機能と、
    前記プレゼンテーションの音声を認識することによって得られた字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページから抽出されたテキストデータと、抽出された前記キーワードと共に表示し、当該キーワードの表示を前記重み付けを考慮して行う機能と
    を実現させる、プログラム。
  16. 前記表示する機能では、前記字幕の候補の第1の行から第2の行へフォーカスを移動する操作があった場合に、当該第1の行の元となる音声が発せられた時間に参照されていた第1のページと、当該第2の行の元となる音声が発せられた時間に参照されていた第2のページとが異なれば、当該第1のページから抽出されたテキストデータを、当該第2のページから抽出されたテキストデータに切り替えて表示する、請求項15記載のプログラム。
  17. 前記プレゼンテーションの音声を認識することによって生成された前記字幕の候補の字幕編集者による編集後の字幕をページ単位に分割し、発表者がプレゼンテーションにおいて参照するためのスピーカノートとして前記文書データの対応するページに埋め込む機能を更に実現させる、請求項15記載のプログラム。
  18. 過去のプレゼンテーションから得られた字幕であるマスタ字幕を、当該マスタ字幕の元となる音声が発せられた時間に参照されていたページに関連付けて記憶する機能を更に実現させ、
    前記表示する機能では、前記プレゼンテーションの音声を認識することによって得られた前記字幕の候補を、当該音声が発せられた時間に参照されていた前記文書データのページに関連付けて記憶されたマスタ字幕と共に表示する、請求項15記載のプログラム。
JP2004369784A 2004-12-21 2004-12-21 字幕生成装置、字幕生成方法、及びプログラム Expired - Fee Related JP4218758B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2004369784A JP4218758B2 (ja) 2004-12-21 2004-12-21 字幕生成装置、字幕生成方法、及びプログラム
US11/338,100 US7739116B2 (en) 2004-12-21 2006-01-23 Subtitle generation and retrieval combining document with speech recognition
US12/538,944 US8155969B2 (en) 2004-12-21 2009-08-11 Subtitle generation and retrieval combining document processing with voice processing

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004369784A JP4218758B2 (ja) 2004-12-21 2004-12-21 字幕生成装置、字幕生成方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2006178087A JP2006178087A (ja) 2006-07-06
JP4218758B2 true JP4218758B2 (ja) 2009-02-04

Family

ID=36732266

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004369784A Expired - Fee Related JP4218758B2 (ja) 2004-12-21 2004-12-21 字幕生成装置、字幕生成方法、及びプログラム

Country Status (2)

Country Link
US (2) US7739116B2 (ja)
JP (1) JP4218758B2 (ja)

Families Citing this family (47)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2005086631A2 (en) * 2004-01-20 2005-09-22 Bae Systems Information And Electronic Systems Integration Inc. Multifunction receiver-on-chip for electronic warfare applications
US8185221B1 (en) 2005-01-20 2012-05-22 Bae Systems Information And Electronic Systems Integration Inc. Multifunction receiver-on-chip for electronic warfare applications
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
US20080085099A1 (en) * 2006-10-04 2008-04-10 Herve Guihot Media player apparatus and method thereof
US8060390B1 (en) * 2006-11-24 2011-11-15 Voices Heard Media, Inc. Computer based method for generating representative questions from an audience
JP5240457B2 (ja) * 2007-01-16 2013-07-17 日本電気株式会社 拡張認識辞書学習装置と音声認識システム
JP4609509B2 (ja) * 2008-03-21 2011-01-12 ブラザー工業株式会社 情報処理システム
US8185706B2 (en) * 2008-04-30 2012-05-22 Apple Inc. Copyback optimization for memory system
JP5049908B2 (ja) * 2008-07-30 2012-10-17 富士フイルム株式会社 コンテンツ文書再生データ作成装置、方法およびプログラム
US20100145677A1 (en) * 2008-12-04 2010-06-10 Adacel Systems, Inc. System and Method for Making a User Dependent Language Model
JP5412916B2 (ja) * 2009-03-27 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US9236047B2 (en) * 2010-05-21 2016-01-12 Microsoft Technology Licensing, Llc Voice stream augmented note taking
JP5691654B2 (ja) * 2011-03-03 2015-04-01 富士通株式会社 表示制御装置、表示制御方法、および表示制御プログラム
US9483557B2 (en) 2011-03-04 2016-11-01 Microsoft Technology Licensing Llc Keyword generation for media content
US20120239667A1 (en) * 2011-03-15 2012-09-20 Microsoft Corporation Keyword extraction from uniform resource locators (urls)
US9053750B2 (en) * 2011-06-17 2015-06-09 At&T Intellectual Property I, L.P. Speaker association with a visual representation of spoken content
US9037467B2 (en) 2012-01-02 2015-05-19 International Business Machines Corporation Speech effects
WO2013102954A1 (ja) * 2012-01-06 2013-07-11 パナソニック株式会社 放送受信装置および音声辞書構築処理方法
US20140365202A1 (en) * 2013-06-11 2014-12-11 Facebook, Inc. Translation and integration of presentation materials in cross-lingual lecture support
US9892115B2 (en) * 2013-06-11 2018-02-13 Facebook, Inc. Translation training with cross-lingual multi-media support
US9678953B2 (en) * 2013-06-11 2017-06-13 Facebook, Inc. Translation and integration of presentation materials with cross-lingual multi-media support
US10049163B1 (en) * 2013-06-19 2018-08-14 Amazon Technologies, Inc. Connected phrase search queries and titles
JP6591217B2 (ja) * 2014-07-16 2019-10-16 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America 音声認識テキスト化システムの制御方法
JP6280025B2 (ja) * 2014-12-19 2018-02-14 日本電信電話株式会社 コンテンツ加工方法、コンテンツ加工装置及びコンテンツ加工プログラム
US9948913B2 (en) * 2014-12-24 2018-04-17 Samsung Electronics Co., Ltd. Image processing method and apparatus for processing an image pair
US20160275942A1 (en) * 2015-01-26 2016-09-22 William Drewes Method for Substantial Ongoing Cumulative Voice Recognition Error Reduction
JP6392150B2 (ja) * 2015-03-18 2018-09-19 株式会社東芝 講演支援装置、方法およびプログラム
US10043517B2 (en) * 2015-12-09 2018-08-07 International Business Machines Corporation Audio-based event interaction analytics
US9959872B2 (en) 2015-12-14 2018-05-01 International Business Machines Corporation Multimodal speech recognition for real-time video audio-based display indicia application
US10691893B2 (en) * 2016-02-29 2020-06-23 International Business Machines Corporation Interest highlight and recommendation based on interaction in long text reading
JP2017167805A (ja) 2016-03-16 2017-09-21 株式会社東芝 表示支援装置、方法およびプログラム
JP6744025B2 (ja) * 2016-06-21 2020-08-19 日本電気株式会社 作業支援システム、管理サーバ、携帯端末、作業支援方法およびプログラム
US10460040B2 (en) * 2016-06-27 2019-10-29 Facebook, Inc. Language model using reverse translations
JP6809177B2 (ja) * 2016-12-02 2021-01-06 ヤマハ株式会社 情報処理システムおよび情報処理方法
JP6985138B2 (ja) * 2017-12-28 2021-12-22 株式会社イトーキ 音声認識システム及び音声認識方法
JP7338214B2 (ja) 2018-04-20 2023-09-05 株式会社リコー 通信端末、管理システム、表示方法、及びプログラム
JP6739811B2 (ja) * 2019-01-22 2020-08-12 株式会社インタラクティブソリューションズ 発言禁止用語に対し注意を喚起するためのプレゼンテーション支援装置
JP6810363B2 (ja) * 2019-01-25 2021-01-06 富士通クライアントコンピューティング株式会社 情報処理装置、情報処理システム、および情報処理プログラム
CN110798636B (zh) * 2019-10-18 2022-10-11 腾讯数码(天津)有限公司 字幕生成方法及装置、电子设备
JP7237378B2 (ja) * 2020-01-06 2023-03-13 株式会社インタラクティブソリューションズ システム
JP6758732B1 (ja) * 2020-01-06 2020-09-23 株式会社インタラクティブソリューションズ プレゼンテーション支援システム
JP6841535B1 (ja) * 2020-01-29 2021-03-10 株式会社インタラクティブソリューションズ 会話解析システム
KR102446300B1 (ko) * 2020-10-22 2022-09-22 네이버 주식회사 음성 기록을 위한 음성 인식률을 향상시키는 방법, 시스템, 및 컴퓨터 판독가능한 기록 매체
JP7049010B1 (ja) * 2021-03-02 2022-04-06 株式会社インタラクティブソリューションズ プレゼンテーション評価システム
US20220303320A1 (en) * 2021-03-17 2022-09-22 Ampula Inc. Projection-type video conference system and video projecting method
US11789696B2 (en) * 2021-03-23 2023-10-17 Microsoft Technology Licensing, Llc Voice assistant-enabled client application with user view context
CN114827745B (zh) * 2022-04-08 2023-11-14 海信集团控股股份有限公司 视频字幕的生成方法及电子设备

Family Cites Families (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3185505B2 (ja) 1993-12-24 2001-07-11 株式会社日立製作所 会議録作成支援装置
US5758257A (en) * 1994-11-29 1998-05-26 Herz; Frederick System and method for scheduling broadcast of and access to video programs and other data using customer profiles
US5680511A (en) * 1995-06-07 1997-10-21 Dragon Systems, Inc. Systems and methods for word recognition
US6081262A (en) * 1996-12-04 2000-06-27 Quark, Inc. Method and apparatus for generating multi-media presentations
JPH1141538A (ja) * 1997-07-17 1999-02-12 Nec Home Electron Ltd 音声認識文字表示装置
US6438523B1 (en) * 1998-05-20 2002-08-20 John A. Oberteuffer Processing handwritten and hand-drawn input and speech input
US6243713B1 (en) * 1998-08-24 2001-06-05 Excalibur Technologies Corp. Multimedia document retrieval by application of multimedia queries to a unified index of multimedia data for a plurality of multimedia data types
JP2001134285A (ja) * 1999-11-01 2001-05-18 Matsushita Electric Ind Co Ltd 音声認識装置
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7299405B1 (en) * 2000-03-08 2007-11-20 Ricoh Company, Ltd. Method and system for information management to facilitate the exchange of ideas during a collaborative effort
GB0003903D0 (en) * 2000-02-18 2000-04-05 Canon Kk Improved speech recognition accuracy in a multimodal input system
US6718308B1 (en) * 2000-02-22 2004-04-06 Daniel L. Nolting Media presentation system controlled by voice to text commands
DE60142967D1 (de) * 2000-06-09 2010-10-14 British Broadcasting Corp Erzeugung von untertiteln für bewegte bilder
US6507838B1 (en) * 2000-06-14 2003-01-14 International Business Machines Corporation Method for combining multi-modal queries for search of multimedia data using time overlap or co-occurrence and relevance scores
US6580437B1 (en) * 2000-06-26 2003-06-17 Siemens Corporate Research, Inc. System for organizing videos based on closed-caption information
US7490092B2 (en) * 2000-07-06 2009-02-10 Streamsage, Inc. Method and system for indexing and searching timed media information based upon relevance intervals
WO2002008948A2 (en) * 2000-07-24 2002-01-31 Vivcom, Inc. System and method for indexing, searching, identifying, and editing portions of electronic multimedia files
US7117231B2 (en) * 2000-12-07 2006-10-03 International Business Machines Corporation Method and system for the automatic generation of multi-lingual synchronized sub-titles for audiovisual data
JP2002268667A (ja) 2001-03-06 2002-09-20 Canon Inc プレゼンテーションシステムおよびその制御方法
US7013273B2 (en) * 2001-03-29 2006-03-14 Matsushita Electric Industrial Co., Ltd. Speech recognition based captioning system
US7046914B2 (en) * 2001-05-01 2006-05-16 Koninklijke Philips Electronics N.V. Automatic content analysis and representation of multimedia presentations
DE10122597A1 (de) * 2001-05-10 2002-11-14 Philips Corp Intellectual Pty Anzeige weiterführender Informationen zu in einem Multimediagerät vorkommenden Informationselementen
US20030046276A1 (en) * 2001-09-06 2003-03-06 International Business Machines Corporation System and method for modular data search with database text extenders
GB2388738B (en) * 2001-11-03 2004-06-02 Dremedia Ltd Time ordered indexing of audio data
JP2003330935A (ja) * 2002-05-15 2003-11-21 Toshiba Corp マルチモーダル情報システム及びマルチモーダル情報検索方法
US7298930B1 (en) * 2002-11-29 2007-11-20 Ricoh Company, Ltd. Multimodal access of meeting recordings
US7730407B2 (en) * 2003-02-28 2010-06-01 Fuji Xerox Co., Ltd. Systems and methods for bookmarking live and recorded multimedia documents
JP3938096B2 (ja) * 2003-04-24 2007-06-27 日本電気株式会社 インデックス作成装置、インデックス作成方法、および、インデックス作成プログラム
US7610306B2 (en) * 2003-06-30 2009-10-27 International Business Machines Corporation Multi-modal fusion in content-based retrieval
US20070011012A1 (en) * 2005-07-11 2007-01-11 Steve Yurick Method, system, and apparatus for facilitating captioning of multi-media content
JP4708913B2 (ja) * 2005-08-12 2011-06-22 キヤノン株式会社 情報処理方法及び情報処理装置
US20070126926A1 (en) * 2005-12-04 2007-06-07 Kohtaroh Miyamoto Hybrid-captioning system
US7296218B2 (en) * 2006-02-08 2007-11-13 Dittrich William A Instant note capture/presentation apparatus, system and method
JP4158937B2 (ja) * 2006-03-24 2008-10-01 インターナショナル・ビジネス・マシーンズ・コーポレーション 字幕修正装置

Also Published As

Publication number Publication date
US7739116B2 (en) 2010-06-15
US20100036664A1 (en) 2010-02-11
US8155969B2 (en) 2012-04-10
JP2006178087A (ja) 2006-07-06
US20070048715A1 (en) 2007-03-01

Similar Documents

Publication Publication Date Title
JP4218758B2 (ja) 字幕生成装置、字幕生成方法、及びプログラム
Pavel et al. Sceneskim: Searching and browsing movies using synchronized captions, scripts and plot summaries
US7979268B2 (en) String matching method and system and computer-readable recording medium storing the string matching method
Yang et al. Content based lecture video retrieval using speech and video text information
JP5241828B2 (ja) 辞書の単語及び熟語の判定
US7693717B2 (en) Session file modification with annotation using speech recognition or text to speech
US7818329B2 (en) Method and apparatus for automatic multimedia narrative enrichment
JP3848319B2 (ja) 情報処理方法及び情報処理装置
US20080077869A1 (en) Conference supporting apparatus, method, and computer program product
JP4738847B2 (ja) データ検索装置および方法
CN111276149B (zh) 语音识别方法、装置、设备及可读存储介质
van Esch et al. Future directions in technological support for language documentation
JP4558680B2 (ja) 出願文書情報作成装置、説明情報抽出装置、出願文書情報作成方法、説明情報抽出方法
Smaïli et al. Summarizing videos into a target language: Methodology, architectures and evaluation
JP2006065675A (ja) データ検索方法および装置
JP2001155467A (ja) 編集処理装置、及び編集処理プログラムが記憶された記憶媒体
WO2021153403A1 (ja) テキスト情報編集装置及びテキスト情報編集方法
JP2007156286A (ja) 情報認識装置及び情報認識プログラム
JP5382965B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
JP4579281B2 (ja) 出願文書情報作成装置、出願文書情報作成方法、及びプログラム
CN112231512A (zh) 歌曲标注检测方法、装置和系统及存储介质
JP2011113426A (ja) 辞書作成装置,辞書作成プログラムおよび辞書作成方法
JP2003132047A (ja) 話し言葉の書き言葉への変換装置
JP2006107108A (ja) データ検索装置及びデータ検索方法
JP6281330B2 (ja) 音声分析方法、音声分析プログラム、及び音声分析装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20071210

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20071227

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20080124

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080205

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080305

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20080701

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20080728

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20081021

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

RD14 Notification of resignation of power of sub attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7434

Effective date: 20081022

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20081104

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20111121

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20121121

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20131121

Year of fee payment: 5

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees