JP2004222169A - 情報処理装置および方法、並びにプログラム - Google Patents

情報処理装置および方法、並びにプログラム Download PDF

Info

Publication number
JP2004222169A
JP2004222169A JP2003009866A JP2003009866A JP2004222169A JP 2004222169 A JP2004222169 A JP 2004222169A JP 2003009866 A JP2003009866 A JP 2003009866A JP 2003009866 A JP2003009866 A JP 2003009866A JP 2004222169 A JP2004222169 A JP 2004222169A
Authority
JP
Japan
Prior art keywords
data
displayed
time code
unit
control unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2003009866A
Other languages
English (en)
Inventor
Osamu Isaka
治 井坂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Daikin Industries Ltd
Original Assignee
Daikin Industries Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Daikin Industries Ltd filed Critical Daikin Industries Ltd
Priority to JP2003009866A priority Critical patent/JP2004222169A/ja
Publication of JP2004222169A publication Critical patent/JP2004222169A/ja
Pending legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】文字おこしに要する操作をより容易なものにする。
【解決手段】インタビュを記録したカメラ一体型ビデオテープレコーダ(VTR)3から情報処理装置1にインタビュの内容を含むAVデータが供給される。情報処理装置は、AVデータを再生し、動画を表示し、音声をヘッドセットマイク2から出力させる。ヘッドセットマイク2を装着したユーザは、インタビュの発言内容を復唱する。ユーザの声は、ヘッドセットマイク2から情報処理装置1に供給される。情報処理装置1は、ユーザの声を音声認識して、テキストデータを生成する。情報処理装置1は、生成したテキストデータを、AVデータに含まれていたタイムコードと対応付けて記憶し、表示する。本発明は、パーソナルコンピュータに適用することができる。
【選択図】 図1

Description

【0001】
【発明の属する技術分野】
本発明は、情報処理装置および方法、並びにプログラムに関し、特に、動画や音声を効率的に編集できるようにした情報処理装置および方法、並びにプログラムに関する。
【0002】
【従来の技術】
インタビュ、講演、およびスピーチなどの発言内容をテキスト化する、所謂、文字おこしにおいては、従来、オペレータが、発言が記録されたオーディオビジュアルデータ(以下、AVデータと称する)を再生装置に装着して、これを少しずつ再生しては、発言内容を聞き、聞いた内容をテキストとして、筆記したり、キーボードなどで入力することを繰り返して、テキストを作成している。
【0003】
また、オペレータが発言内容を聞いて、聞いた内容をテキストとして入力する代わりに、発言が記録されたAVデータのうち音声データを音声認識して、自動的にテキストデータを作成することにより、オペレータを必要とせずに、文字おこしするようにしたものもある。
【0004】
ところで、従来、テレビ番組を制作する際には、撮影し記録した動画および音声を編集する。このとき、編集者は、記録された動画や音声を再生し、必要な部分のみを抽出してつなぎ合わせる作業を行なっている。
【0005】
この編集作業において、編集者は、収録された全AVデータの中から、必要な部分のみを特定する。しかしながら、AVデータの収録時間は膨大になる。例えば、30分の番組を作成するために、収録時間が5時間ほどになることがある。従って、編集者が、収録されたAVデータの中から、必要な部分を特定できるようにするために、予め、AVデータに収録されている内容を、時間毎に示すリストを作成する。このリストの作成においても、上記の文字おこしを行なう必要があった。
【0006】
ところで、字幕放送やクローズドキャプションを行うための字幕用素材を作成するために、収録されたAVデータを再生し、オペレータが、AVデータに記録された発言内容を聞き、テキストデータを入力するようにした字幕素材作成システムがある(例えば、特許文献1参照)。
【0007】
【特許文献1】
特開2000−354203号公報(第5−6ページ)
【0008】
【発明が解決しようとする課題】
しかしながら、従来、オペレータが、発言内容を聞いて、聞いた内容を、筆記したり、キーボードから入力した場合、筆記する速度、およびキーボードで文字を入力する速度は、一般的に、口で話す速度より遅いことから、頻繁に再生と停止を繰り返さなくてはならず、使い勝手が悪いという課題が合った。
【0009】
また、収録されたAVデータを音声認識させた場合、音声認識率が悪く、実際の発言内容と異なる誤った内容のテキストデータを作成してしまうという課題があった。
【0010】
また、特許文献1に記載の操作方法は、字幕やクローズドキャプションの字幕用素材を作成するためには便利であるが、文字おこしや、編集用のリストの作成には、必ずしも最適であるとはいえなかった。
【0011】
また、従来、文字おこししたデータは、テキストデータのみであったため、このデータを参照して、編集を行なう編集者は、AVデータの内容を正確に把握できないことがあった。
【0012】
本発明は、このような状況に鑑みてなされたものであり、より容易な操作で、文字おこしや、編集用のリストの作成をおこなえるようにすることを目的とする。
【0013】
【課題を解決するための手段】
本発明の情報処理装置は、AVデータを再生する再生手段と、再生手段により再生されたAVデータのうち、音声データに基づく音声を出力する出力手段と、再生手段により再生されたAVデータのうちの、動画データに基づく画像の表示を制御する表示制御手段と、出力手段により出力された音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識手段とを備えることを特徴とする。
【0014】
前記音声認識手段には、予め設定された前記ユーザの声の特徴に従って、前記音声を音声認識するようにさせることができる。
【0015】
前記表示手段には、前記音声認識手段により生成された前記テキストデータに基づくテキストの表示をさらに制御するようにさせることができる。
【0016】
前記音声認識手段により生成された前記テキストデータに基づくテキストを印刷する印刷手段をさらに設けるようにすることができる。
【0017】
前記音声認識手段により生成された前記テキストデータを所定の記録媒体に記録する記録手段をさらに設けるようにすることができる。
【0018】
本発明の情報処理方法は、AVデータを再生する再生ステップと、再生ステップの処理により再生されたAVデータのうち、音声データに基づく音声を出力する出力ステップと、再生ステップの処理により再生されたAVデータのうちの動画データに基づく画像の表示を制御する表示制御ステップと、出力ステップの処理により出力された前記音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識ステップとを含むことを特徴とする。
【0019】
本発明のプログラムは、AVデータから文字おこしして、記録位置と対応付けられたテキストのリストを作成する情報処理装置を制御するコンピュータに、AVデータの再生を制御する再生制御ステップと、再生制御ステップの処理により再生が制御されたAVデータのうち、音声データに基づく音声の出力を制御する出力制御ステップと、再生制御ステップの処理により再生が制御されたAVデータのうちの動画データに基づく画像の表示を制御する表示制御ステップと、出力手段により出力された音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識ステップとを実行させることを特徴とする。
【0020】
本発明の情報処理装置および方法、並びにプログラムにおいては、再生されたAVデータのうち、音声データに基づく音声が出力され、再生されたAVデータのうちの、動画データに基づく画像が表示され、出力された音声に基づいて、ユーザが発話した音声が音声認識され、テキストデータが生成される。
【0021】
本発明は、パーソナルコンピュータに適用することができる。
【0022】
【発明の実施の形態】
図1は、本発明を適用した情報処理システムの一実施の形態の構成を表している。
【0023】
図1において、情報処理装置1は、カメラ一体型ビデオテープレコーダ(以下の説明において、カメラ一体型ビデオテープレコーダを、単にVTRと記す)3から供給される動画データ、音声データ、およびタイムコードのうち、動画データおよび音声データ(以下の説明において、動画データおよび音声データをまとめてAVデータと称する)を、例えば、MPEG(Moving Picture Experts Group)などの圧縮規格に従って圧縮し、圧縮したデータを再生して、動画を表示するとともに、音声信号を、ヘッドセットマイク2に出力する。そして、情報処理装置1は、ヘッドセットマイク2から入力される音声信号を音声認識して、テキストデータとタイムコードを対応付けたリストを生成する。
【0024】
ヘッドセットマイク2は、スピーカ71およびマイクロフォン72(いずれも図2参照)により構成され、ユーザの頭部に装着される。ユーザは、スピーカ71から出力される音声を聞き、マイクロフォン72から音声を入力することができる。マイクロフォン72から入力された音声は、情報処理装置1に供給される。
【0025】
VTR3は、被写体を撮影する撮像手段、音声を集音するマイクロフォン、撮像手段により撮像された動画およびマイクロフォンにより集音された音声からなるAVデータを、タイムコードを付加して、装着された記録媒体(例えばテープメディア)に記録し、記録媒体に記録されたAVデータを再生する記録再生手段を備えている。VTR3は、被写体を撮像し、音声を集音して、動画および音声を、タイムコードを付加して記録媒体に記録する。また、VTR3は、例えばIEEE1394により情報処理装置1と接続された場合、記録媒体に記録されたAVデータとタイムコードを、情報処理装置1に出力する。
【0026】
図1のシステムの概要を説明する。ユーザは、VTR3により、インタビュ、講演、およびスピーチなどの撮影記録を行なう。このとき、VTR3は、情報処理装置1に接続されている必要はない。撮影記録の後、編集時に、VTR3は、情報処理装置1に接続される。VTR3は、内部に装着された記録媒体からAVデータとタイムコードを読み出し、読み出したこれらの情報を情報処理装置1に出力する。情報処理装置1は、VTR3から供給されたAVデータとタイムコードを記憶し、動画および音声を再生する。再生された音声は、ヘッドセットマイク2のスピーカ71から出力される。ユーザは、再生される動画を見ながら、ヘッドセットマイク2のスピーカ71から出力される音声を聞き、音声に含まれる発言内容を復唱する。ユーザが復唱した声は、ヘッドセットマイク2のマイクロフォン72により集音され、音声信号が情報処理装置1に供給される。情報処理装置1は、ヘッドセットマイク2から供給された音声信号を音声認識して、テキストデータを生成し、生成したテキストデータを、タイムコードに対応付けたリストを作成する。
【0027】
従来、AVデータに含まれる音声データを音声認識して、テキストデータを生成する装置はあったが、この場合、話者が異なったり、収録された音声の状態が良くなかったりして、実際の発言内容と異なる、誤ったテキストデータを生成することが多かった。それに対して、本発明によれば、1人のユーザにより発話された音声を音声認識させることにより、そのユーザの声の特徴を学習させることができ、結果的に、実際の発言内容と同一の、正しいテキストデータを生成することが可能となる。
【0028】
次に、図2は、情報処理装置1およびヘッドセットマイク2の内部の構成例を表している。
【0029】
図2の情報処理装置1の内部において、操作部51は、例えば、キーボードおよびマウス(ポインティングデバイス)により構成され、ユーザからの操作の入力を受け付け、受け付けられた操作に対応する操作情報を制御部52に通知する。なお、操作部51を構成するキーボードは、例えば、汎用のパーソナルコンピュータ用のPS/2キーボードとすることができ、ファンクションキーF1乃至F12、およびTabキーを含んでいる。制御部52は、予め設定されたプログラムや、操作部51からの操作情報に基づいて、情報処理装置1の各部の動作を制御する。
【0030】
エンコーダ53は、VTR3から供給されたAVデータ、およびタイムコードのうち、AVデータを、例えばMPEGなどの圧縮規格によりエンコードし、エンコード済みのAVデータにタイムコードを対応付けて、記憶部54に記憶させる。
【0031】
記憶部54は、例えば、ハードディスクなどにより構成され、エンコーダ53から供給されるエンコード済みのAVデータおよびタイムコードを記憶する。記憶部54に記憶されたAVデータおよびタイムコードは、適宜、再生制御部55により読み出される。記憶部54はまた、データ管理部63より、文字おこしして生成されたデータ(以下の説明において、文字おこしして生成されたデータを文字おこしデータとも称する)も供給され、供給された文字おこしデータを記憶する。記憶された文字おこしデータは、適宜、再生制御部55により読み出される。
【0032】
再生制御部55は、記憶部54に記憶されたAVデータおよびタイムコードを読み出し、動画データを表示制御部56およびサムネール取得部60に出力し、音声データを音声出力制御部58に出力し、タイムコードをタイムコード取得部59に出力する。また、再生制御部55は、適宜、記憶部54より、文字おこしデータを読み出し、表示制御部56に供給する。
【0033】
表示制御部56は、再生制御部55から供給された動画データ、およびデータ管理部63から供給されたテキストデータ、タイムコード、およびサムネール等をもとに、表示用データを生成し、生成した表示用データを表示部57に出力する。
【0034】
表示部57は、例えば、LCD(Liquid Crystal Display)またはCRT(CathodeRay Tube)を含み、表示制御部56から供給された表示用データに対応する画像を表示する。
【0035】
音声出力制御部58は、再生制御部55から供給された音声データをスピーカ71に供給するために、アナログの音声信号に変換して、音声信号をスピーカ71に出力する。
【0036】
タイムコード取得部59は、制御部52から指示されたタイミングで、タイムコードを取得し、取得したタイムコードをデータ管理部63に供給する。また、タイムコード取得部59は、後述するIN点とOUT点のタイムコードの差を算出し、この差を期間情報(duration)としてデータ管理部63に出力する。
【0037】
サムネール取得部60は、制御部52からの指示に従って、再生制御部55から、1フレーム分の画像データを取得し、取得した画像データを、予め設定された所定のサイズに縮小してサムネール(小見出し用画像)を作成し、作成したサムネールをデータ管理部63に供給する。
【0038】
音声入力部61は、マイクロフォン72から入力された音声信号を、A/D変換して、音声データを作成し、作成した音声データを音声認識部62に供給する。
【0039】
音声認識部62は、音声入力部61から供給された音声データを音声認識して、ユーザの発言に対応するテキストデータを生成し、生成したテキストデータをデータ管理部63に供給する。また、音声認識部62は、音声認識の認識率を上げるためのエンロール処理を実行時には、音声入力部61から入力される音声データを分析し、ユーザの声の特徴を検出して、登録する。
【0040】
データ管理部63は、タイムコード取得部59から供給されたIN点やOUT点のタイムコードおよび期間情報、サムネール取得部60から供給されたサムネール、並びに音声認識部62から供給されたテキストデータを、制御部52からの指示に従って、対応付けて記憶する。以下の説明において、IN点やOUT点のタイムコード、期間情報、サムネール、およびテキストデータを、文字おこしデータと称する。データ管理部63は、制御部52からの指示に従って、記憶した文字おこしデータを、適宜、記憶部54、表示制御部56、印刷部64、またはドライブ65に供給する。また、データ管理部63は、ユーザにより入力された、情報処理装置1の動作を設定するデータ(以下の説明において、ユーザにより入力された、情報処理装置1の動作を設定するデータをユーザ設定データと称する)を記憶する。また、データ管理部63は、後述するエンロール処理用のテキストデータも記憶している。
【0041】
印刷部64は、プリンタを含み、データ管理部63から供給されたデータをもとに、印刷用データを作成し、作成した印刷用データに基づく画像を所定の印刷用紙に印刷する。
【0042】
ドライブ65は、データ管理部63から供給されたデータ(文字おこしデータを含む)を、記録媒体66に記録する。なお、記録媒体は、例えば、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリとすることができる。
【0043】
ヘッドセットマイク2内の、スピーカ71は、ユーザの耳に装着され、音声出力制御部58から供給された音声信号に対応する音声を出力する。
【0044】
マイクロフォン72は、ユーザの口の前方に、所定の距離を開けて設置され、ユーザが発話した音声を集音して、音声信号を音声入力部61に出力する。
【0045】
次に、図3のフローチャートを参照して、情報処理装置1の文字おこし処理について説明する。
【0046】
ユーザにより操作部51が操作され、文字おこし開始の指示が入力されたとき、ステップS1において、制御部52は、表示制御部56に、文字おこし実行ウィンドウを表示するように指令する。表示制御部56は、制御部52からの指令に従って、表示部57に文字おこし実行ウィンドウを表示させる。
【0047】
図4は、表示部57に表示される文字おこし実行ウィンドウ101の例を表している。図4において、動画表示エリア111は、動画を表示するエリアである。目盛りバー112は、動画表示エリア111に表示されているフレームの、動画データ全体における時間的な位置を示す。ユーザは、操作部51を操作して、目盛りバー112を左右にスライドさせることができ、目盛りバー112がスライドされた場合、目盛りバー112が移動した位置に対応するフレームが動画表示エリア111に表示される。
【0048】
ムービーボタン121は、エンコード済みAVデータの再生等の指示の可能、不可能を選択する場合に操作される。再生ボタン122は、エンコード済みAVデータの再生を指示する場合に操作される。ポーズボタン123は、AVデータの再生を一時停止する場合に操作される。
【0049】
スキップバックボタン124は、AVデータの再生中に、時間を遡る方向に再生位置をスキップさせる場合に操作される。スキップバック時間設定部125は、スキップバックボタン124が操作された場合にスキップさせる時間の長さを設定する場合に操作される。すなわち、ユーザは、操作部51(マウス)を操作して、ポインタをスキップバックボタン124の右端の三角形の部分に合わせ、クリックすると、設定可能な時間がプルダウン表示される。例えば、1乃至60秒が、設定可能な時間として表示される。ユーザは、操作部51(マウス)を操作して、プルダウン表示された候補の中から、所望の時間を選択することができる。
【0050】
図4の例においては、スキップバック時間設定部125は、5秒に設定されている。この場合、スキップバックボタン124が操作されると、再生位置が5秒間分だけ遡った位置にスキップして、そこから再生が続けられる。例えば、タイムコードが「00:01:10」のタイミングで、スキップバックボタン124が操作された場合、タイムコードが「00:01:05」の位置から再生が開始される。
【0051】
なお、タイムコードは、時、分、秒の順番に表示されている。例えば、タイムコードが「00:01:10」の場合、「00」が時間を表し、「01」が分を表し、「10」が秒を表している。なお、本実施の形態においては、説明を簡単にするため、タイムコードとして、時、分、および秒を表示した場合を例にして説明しているが、実際には、時、分、および秒とともに、フレーム番号も表示される。例えば、AVデータのフレームレートが30フレーム/秒であった場合、タイムコードは、「時:分:秒:フレーム番号X」(Xは、0≦X≦29の整数)として表示される。例えば、タイムコードが「00:01:10:25」の場合、AVデータのうち、00時01分10秒の25フレーム目のフレームを示すことになる。以下の説明においても、フレーム番号の表示は省略するが、このことは、フレーム番号が表示されないことを意味するものではなく、実際には、フレーム番号も表示される。
【0052】
スキップフォワードボタン126は、AVデータの再生中に、時間が進む方向に再生位置をスキップさせる場合に操作される。スキップフォワード時間設定部127は、スキップフォワードボタン126が操作された場合にスキップさせる時間の長さを設定する場合に操作される。すなわち、ユーザは、操作部51(マウス)を操作して、ポインタをスキップフォワードボタン126の右端の三角形の部分に合わせ、クリックすると、設定可能な時間がプルダウン表示される。例えば、1乃至60秒が、設定可能な時間として表示される。ユーザは、操作部51(マウス)を操作して、プルダウン表示された候補の中から、所望の時間を選択することができる。
【0053】
図4の例においては、スキップフォワード時間設定部127が5秒に設定されている。この場合、スキップフォワードボタン126が操作されると、再生位置が5秒間分だけ、時間が進む方向にスキップして、そこから再生が続けられる。例えば、タイムコードが「00:01:10」のタイミングで、スキップフォワードボタン126が操作された場合、タイムコードが「00:01:15」の位置から再生が開始される。
【0054】
IN点設定ボタン128は、AVデータの再生中に、動画表示エリア111に表示されているフレームに対応するタイムコードを、IN点のタイムコードとして設定する場合に操作される。OUT点設定ボタン129は、AVデータの再生中に、動画表示エリア111に表示されているフレームに対応するタイムコードを、OUT点のタイムコードとして設定する場合に操作される。タイムコード表示エリア130には、動画表示エリア111に表示されているフレームに対応するタイムコードが表示される。図4の例においては、タイムコード表示エリア130には、タイムコード「00:01:06」が表示されている。なお、図4においては、フレーム番号の表示は省略されているが、このことは、フレーム番号が表示されないことを意味するものではなく、フレーム番号も表示されるようにしても良い。
【0055】
情報処理装置1は、接続されたVTR3に、再生や停止などの指示を送ることができ、ビデオボタン151は、接続されたVTR3を操作可能にしたり、不可能にしたりする場合に操作される。ビデオ再生ボタン152は、VTR3に、記録されたAVデータを再生させる場合に操作される。エンコードボタン153は、VTR3により再生されているAVデータをエンコードする場合に操作される。停止ボタン154は、AVデータの再生やエンコードを停止する場合に操作される。巻き戻しボタン155は、VTR3に、AVデータを巻き戻しさせる場合に操作される。早送りボタン156は、VTR3に、AVデータを早送りさせる場合に操作される。
【0056】
文字おこし実行ウィンドウ101の右側には、文字おこしされるテキストデータ、IN点およびOUT点のタイムコード、およびサムネールのリストを表示するエリアが設けられている。このエリアを、文字おこしデータ表示エリアと称する。
【0057】
ユーザは、動画表示エリア111に表示される動画のうち、任意の時間の発言内容を文字おこしすることができる。文字おこしして生成されたテキストデータは、タイムコードと対応付けられて、リスト化され、文字おこしデータ表示エリアに表示される。
【0058】
この文字おこしデータ表示エリアは、項目番号表示エリア171、テキスト入力エリア172、IN点表示エリア173、OUT点表示エリア174、期間表示エリア175、およびサムネール表示エリア176から構成される。
【0059】
項目番号表示エリア171には、文字おこしデータ表示エリアに表示されたリストの項目番号が表示される。すなわち、図4において、上のセルから順番に1,2,3,4・・・のように、項目番号が表示されている。なお、本説明においては、文字おこしデータ表示エリアの横方向の行を、項目と称する。
【0060】
テキスト入力エリア172には、生成されたテキストデータに基づくテキストが表示される。なお、図4においては、全て「***」が表示されているが、実際には、文字おこしされた発言内容のテキストが表示される。
【0061】
IN点表示エリア173には、IN点のタイムコードが表示される。OUT点表示エリア174には、OUT点のタイムコードが表示される。期間表示エリア175には、IN点のタイムコードとOUT点のタイムコードの差が表示される。サムネール表示エリア176には、IN点とOUT点の間の、予め設定された所定のタイミングのフレームを縮小したサムネールが表示される。
【0062】
なお、図4の例においては、IN点表示エリア173に表示されたタイムコードのうち、フレーム番号の表示が省略されているが、このことは、フレーム番号が表示されないことを意味するものではなく、フレーム番号も表示されるようにしても良い。また、図4においては、OUT点表示エリア174、および期間表示エリア175には、何も表示されていないが、実際には、OUT点表示エリア174には、OUT点のタイムコードが表示され、期間表示エリア175には、IN点のタイムコードとOUT点のタイムコードの差が表示される(ただし、勿論、設定されるまでは表示されない)。また、図4においては、サムネール表示エリア176には、上から2つのセルにのみサムネールが表示されているが、実際には、上から3つめ以降のセルにもサムネールが表示される(ただし、勿論、設定されるまでは表示されない)。
【0063】
サムネール表示エリア176の右隣には、スクロールバー191が表示されている。スクロールバー191は、上下方向にスライド可能とされ、操作部51を介してスライドされると、スライドされた長さに応じて、表示する項目をずらしてゆく。従って、ユーザは、操作部51を操作して、スクロールバー191を上下方向にスライドさせることにより、文字おこしデータ表示エリアに1度に表示しきれない項目を表示させることができる。
【0064】
なお、図3のステップS1においては、まだ、動画データのエンコードも、再生も行なっていないので、図4の文字おこし実行ウィンドウ101の、動画表示エリア111には、動画は表示されていない。また、当然のことながら、ステップS1においては、テキストデータも生成されていないので、テキストデータ入力エリア172、IN点表示エリア173、OUT点表示エリア174、期間表示エリア175、およびサムネール表示エリア176は、空白とされる。
【0065】
図3に戻って、ステップS1の処理の後、処理はステップS2に進む。ステップS2において、ユーザにより操作部51が操作され、ビデオ再生ボタン152が操作されると、制御部52は、VTR3に対して、AVデータ再生の制御信号を送信する。VTR3は、AVデータ(タイムコードを含む)の再生を開始する。再生されたAVデータ(タイムコードを含む)は、接続されたケーブルを介して、情報処理装置1に出力される。
【0066】
ステップS3において、エンコーダ53は、ステップS2で、VTR3から供給されたAVデータをエンコードし、エンコード済みのAVデータをタイムコードと対応付けて、記憶部54に記憶させる。
【0067】
ステップS4において、制御部52は、操作部51からの操作信号に従って、各部を制御し、再生制御処理、項目選択処理、音声認識処理、サムネール取得処理、およびセル分割処理を実行する。
【0068】
再生制御処理とは、エンコードされ、記憶部54に記憶されたAVデータを再生して、動画表示エリア111に表示させる処理である。項目選択処理とは、音声認識して生成されたテキストデータに基づくテキストを表示させる項目を選択する処理である。音声認識処理とは、ユーザが発話した音声を音声認識して、発言内容のテキストデータを生成する処理である。サムネール取得処理とは、サムネール表示エリア176に表示させるサムネールを取得する処理である。セル分割処理とは、1つの項目を、2つに分割する処理である。
【0069】
再生制御処理については、図5のフローチャートを参照して後述する。項目選択処理については、図12のフローチャートを参照して後述する。音声認識処理については、図13のフローチャートを参照して後述する。サムネール取得処理については、図20のフローチャートを参照して後述する。セル分割処理については、図21のフローチャートを参照して後述する。
【0070】
ステップS4の処理が終了すると、文字おこし処理が終了する。
【0071】
次に、図5のフローチャートを参照して、情報処理装置1の再生制御処理について説明する。
【0072】
図5のステップS101において、制御部52は、操作部51からの操作信号に基づいて、再生ボタン122が操作されたか否かを判定し、再生ボタン122が操作されるまで、ステップS101の処理をくり返し実行して、待機する。そして、再生ボタン122が操作されたとき、処理はステップS102に進む。なお、操作部51に含まれる所定のキー(この例においてはF6キーとする)を操作しても、再生ボタン122と同様の指示を入力することができる。従って、ステップS101において、制御部52は、操作部51から、F6キーが操作された旨が通知されたか否かも判定し、F6キーが操作された旨の通知が受信された場合、処理はステップS102に進む。
【0073】
ステップS102において、制御部52は、動画の再生を開始するように、再生制御部55に指令する。再生制御部55は、制御部52からの指令に従って、記憶部54から、エンコード済みのAVデータおよびタイムコードを読み出し、AVデータのうち音声データの音声出力制御部58への供給を開始し、動画データおよびタイムコードの表示制御部56への供給を開始する。なお、AVデータおよびタイムコードは、再生制御部55により読み出されても、記憶部54から消去されずに残る。
【0074】
音声出力制御部58は、再生制御部55から供給される音声データのD/A変換を開始し、D/A変換後の音声信号のスピーカ71への出力を開始する。スピーカ71は、音声出力制御部58から入力された音声信号に対応する音声を出力する。ユーザは、この音声を聞くことができる。表示制御部56は、再生制御部55から供給される動画データおよびタイムコードを含む表示用データの作成を開始し、作成した表示用データの表示部57への供給を開始する。表示部57は、表示制御部56から供給された表示用データの表示を開始する。これにより動画表示エリア111には、動画の表示が開始され、タイムコードのタイムコード表示エリア130への表示が開始される。ユーザは、動画表示エリア111に表示された動画、およびタイムコード表示エリア130に表示されたタイムコードを見ることができる。ステップS102の処理の後、処理はステップS103に進む。
【0075】
ステップS103において、制御部52は、再生制御部55を監視し、再生制御部55が記憶部54から、エンコード済みのAVデータを全て読み出したか否かを判定することにより、一連のAVデータが全て再生されたか否かを判定し、再生制御部55が記憶部54から、エンコード済みのAVデータを全て読み出していない(まだ再生されていないAVデータが存在する)場合、処理はステップS104に進む。
【0076】
ステップS104において、制御部52は、操作部51からの操作信号に基づいて、ポーズボタン123が操作されたか否かを判定し、ポーズボタン123が操作された場合、処理はステップS105に進む。なお、操作部51に含まれる所定のキー(この例においてはF6キーとする)を操作しても、ポーズボタン123と同様の指示を入力することができる。従って、ステップS104において、制御部52は、操作部51から、F6キーが操作された旨が通知されたか否かも判定し、F6キーが操作された旨の通知が受信された場合、処理はステップS105に進む。
【0077】
ステップS105において、制御部52は、再生制御部55に、AVデータの読み出しを停止し、停止した時点のタイムコードを保持するように指令する。再生制御部55は、制御部52からの指令に従って、AVデータの読み出しを停止し、停止した時点のタイムコードを保持する。また、その結果、再生制御部55から音声出力制御部58への音声データの供給、並びに再生制御部55から表示制御部56への動画データおよびタイムコードの供給が停止する。従って、スピーカ71からの音声の出力が停止するとともに、動画表示エリア111に表示されていた動画が静止する(最後に供給されたフレームが静止画として表示される)。
【0078】
ステップS105の処理の後、処理はステップS101に戻り、上述したステップS101以降の処理がくり返し実行される。なお、ステップS105の処理の後に実行されるステップS102の処理においては、AVデータは、最初から再生されるのではなく、ステップS105で再生制御部55により保持されたタイムコードに対応する位置から再生が開始される。従って、ユーザは、一時停止した続きからAVデータに基づく動画および音声を視聴することができる。
【0079】
ステップS104において、制御部52が、ポーズボタン123もF6キーも操作されていないと判定した場合、処理はステップS106に進む。
【0080】
ステップS106において、制御部52は、操作部51からの操作信号に基づいて、スキップフォワードボタン126が操作されたか否かを判定し、スキップフォワードボタン126が操作された場合、処理はステップS107に進む。なお、操作部51に含まれる所定のキー(この例においてはF7キーとする)を操作しても、スキップフォワードボタン126と同様の指示を入力することができる。従って、ステップS106において、制御部52は、操作部51から、F7キーが操作された旨が通知されたか否かも判定し、F7キーが操作された旨の通知が受信された場合、処理はステップS107に進む。
【0081】
ステップS107において、制御部52は、再生制御部55に、スキップフォワードするように指令する。再生制御部55は、制御部52からの指令に従って、現在再生しているAVデータのタイムコードから、スキップフォワード時間設定部127で設定された時間分だけ進んだタイムコードまで、再生位置をスキップし、スキップしたタイムコードに対応する位置からAVデータの再生を開始する。
【0082】
すなわち、再生制御部55は、現在読み出しているAVデータのタイムコードに、スキップフォワード時間設定部127で設定された時間を足し算して、スキップ後のタイムコードを算出し、算出したタイムコード以降のAVデータの読み出しを開始する。再生制御部55は、読み出したAVデータのうち、音声データを音声出力制御部58に供給し、動画データおよびタイムコードを表示制御部56に供給する。結果的に、ユーザは、スキップフォワード時間設定部127で設定された時間分、再生位置がスキップフォワードされたAVデータに基づく動画および音声を視聴することができる。ステップS107の処理の後、処理はステップS103に戻り、上述したステップS103以降の処理をくり返し実行する。
【0083】
ステップS106において、制御部52が、スキップフォワードボタン126もF7キーも操作されていないと判定した場合、処理はステップS108に進む。
【0084】
ステップS108において、制御部52は、操作部51からの操作信号に基づいて、スキップバックボタン124が操作されたか否かを判定し、スキップバックボタン124が操作された場合、処理はステップS109に進む。なお、操作部51に含まれる所定のキー(この例においてはF5キーとする)を操作しても、スキップバックボタン124と同様の指示を入力することができる。従って、ステップS108において、制御部52は、操作部51から、F5キーが操作された旨が通知されたか否かも判定し、F5キーが操作された旨の通知が受信された場合、処理はステップS109に進む。
【0085】
ステップS109において、制御部52は、再生制御部55に、スキップバックするように指令する。再生制御部55は、制御部52からの指令に従って、現在再生しているAVデータのタイムコードから、スキップバック時間設定部125で設定された時間分だけ戻ったタイムコードまで、再生位置をスキップし、スキップしたタイムコードに対応する位置からAVデータの再生を開始する。
【0086】
すなわち、再生制御部55は、現在読み出しているAVデータのタイムコードから、スキップバック時間設定部125で設定された時間を引き算して、スキップ後のタイムコードを算出し、算出したタイムコード以降のAVデータの読み出しを開始する。再生制御部55は、読み出したAVデータのうち、音声データを音声出力制御部58に供給し、動画データおよびタイムコードを表示制御部56に供給する。結果的に、ユーザは、スキップバック時間設定部125で設定された時間分、再生位置がスキップバックされたAVデータに基づく動画および音声を視聴することができる。ステップS109の処理の後、処理はステップS103に戻り、上述したステップS103以降の処理をくり返し実行する。
【0087】
ステップS108において、制御部52が、スキップバックボタン124もF5キーも操作されていないと判定した場合、処理はステップS103に戻り、上述したステップS103以降の処理をくり返し実行する。
【0088】
ステップS103において、制御部52が、再生制御部55が記憶部54から、エンコード済みのAVデータを全て読み出した(AVデータは最後まで再生された)と判定した場合、処理はステップS110に進む。
【0089】
ステップS110において、制御部52は、再生制御部55に、AVデータの読み出しを終了するように指令する。再生制御部55は、制御部52からの指令に従って、AVデータの読み出しを終了する。その結果、再生制御部55から音声出力制御部58への音声データの供給、並びに再生制御部55から表示制御部56への動画データおよびタイムコードの供給が終了する。従って、スピーカ71からの音声の出力が終了するとともに、動画表示エリア111に表示されていた動画が静止する(最後に供給されたフレームが表示される)。
【0090】
以上のようにして、再生制御処理が実行される。以上のような再生制御処理により、ユーザは、再生ボタン122(F6キー)、ポーズボタン123(F6キー)、スキップバックボタン124(F7キー)、およびスキップフォワードボタン126(F5キー)を操作して、再生位置を自由に設定することができる。
【0091】
ところで、ユーザは、操作部51上に配置された所定のキーを操作することにより、テキスト入力エリア172内の、所望の項目に、テキストデータに基づくテキストを表示させることができる。図6乃至図11を参照して、テキストデータに基づくテキストを表示させる項目の指定方法について説明する。
【0092】
図6は、文字おこしデータ表示エリアの一部を抜き出して示した図である。図6においては、11項目目、および12項目目にのみ、テキストデータ、IN点のタイムコード、OUT点のタイムコード、期間、およびサムネールが表示されているが、実際には、1乃至10項目目にも、テキストデータ、IN点のタイムコード、OUT点のタイムコード、期間、およびサムネールが表示されている。
【0093】
図6において、テキスト入力エリア172の11項目目のセルには、テキスト「こんなもんでいかがでしょうか(笑顔)」が表示され、IN点表示エリア173の11項目目のセルには、タイムコード「00:07:14」が表示され、OUT点表示エリア174の11項目目のセルには、タイムコード「00:07:27」が表示され、期間表示エリア175の11項目目のセルには、IN点とOUT点との差「00:00:13」が表示され、サムネール表示エリア176の11項目目のセルには、サムネール201が表示されている。
【0094】
また、図6において、テキスト入力エリア172の12項目目のセルには、テキスト「これでいいところをつなぐ。(笑顔)」が表示され、IN点表示エリア173の12項目目のセルには、タイムコード「00:07:27」が表示され、OUT点表示エリア174の12項目目のセルには、タイムコード「00:07:35」が表示され、期間表示エリア175の12項目目のセルには、IN点とOUT点との差「00:00:08」が表示され、サムネール表示エリア176の12項目目のセルには、サムネール202が表示されている。
【0095】
なお、図6の例においては、IN点表示エリア173、およびOUT点表示エリア174に表示されるタイムコード、並びに期間表示エリア175に表示されるタイムコードの差分は、時、分、および秒により構成されているが、実際には勿論、時、分、および秒とともに、さらにフレーム番号が表示される。このことは、図7乃至図11、図18、および図19についても同様である。
【0096】
図6のテキスト入力エリア172においては、12項目目のセルが、他の項目のセルとは区別して表示されている。これは、12項目目のセルが、入力可能状態であることを表しており、この状態で、音声認識部62により生成されたテキストデータに基づくテキストは、12項目目のセル内に表示される。なお、図6のテキスト入力エリア172においては、入力可能状態のセルが斜線により他の項目のセルと区別されているが、実際には、入力可能状態のセルは、例えば、表示させる明度や色を変えたり、或いは点滅させたりして、他の項目のセルと区別される。
【0097】
図6に示される文字おこしデータ表示エリアが表示されている状態で、操作部51に含まれる所定のキー(この例においてはTabキー)が操作された場合、文字おこしデータ表示エリアは、図7に示される表示になる。
【0098】
図7においては、テキスト入力エリア172の入力可能状態のセルが13項目目に移動し、IN点表示エリア173の13項目目のセル内に、タイムコード「00:07:31」が表示されている。IN点表示エリア173の13項目目のセル内に表示されたタイムコードは、Tabキーが操作された時点で、タイムコード表示エリア130に表示されていたタイムコードである。
【0099】
すなわち、Tabキーが操作された場合、テキスト入力エリア172において、入力可能状態のセルが、次項目のセルに移行し、Tabキーが操作された時点で再生されていた動画のタイムコードが、次項目のIN点表示エリア173に表示される。
【0100】
図6に示される文字おこしデータ表示エリアが表示されている状態で、操作部51に含まれる所定のキー(この例においてはF3キー)が操作された場合、またはIN点設定ボタン128が操作された場合、文字おこしデータ表示エリアは、図8に示される表示になる。
【0101】
図8においては、テキスト入力エリア172の12項目目のセルが、入力可能状態から、選択状態に変更され、IN点表示エリア173の12項目目のセル内に、タイムコード「00:07:31」が表示されている。テキスト入力エリア172においては、セルが選択状態にある場合、新たなテキストの追記は受け付けられない。なお、選択状態のセルは、例えば、反転表示されることにより、他のセルと区別される。IN点表示エリア173の12項目目のセル内に表示されたタイムコードは、F3キー(またはIN点設定ボタン128)が操作された時点で、タイムコード表示エリア130に表示されていたタイムコードである。
【0102】
すなわち、F3キー(またはIN点設定ボタン128)が操作された場合、テキスト入力エリア172において、入力可能状態のセルが、選択状態に変更され、F3キーが操作された時点で再生されていた動画のタイムコードが、現項目のIN点表示エリア173に表示される。
【0103】
図6に示される文字おこしデータ表示エリアが表示されている状態で、操作部51に含まれる所定のキー(この例においてはF4キー)が操作された場合、文字おこしデータ表示エリアは、図9に示される表示状態になる。
【0104】
図9においては、テキスト入力エリア172の入力可能状態のセルが13項目目に移動し、IN点表示エリア173の12項目目のセル内に、タイムコード「00:07:31」が表示されている。IN点表示エリア173の12項目目のセル内に表示されたタイムコードは、F4キーが操作された時点で、タイムコード表示エリア130に表示されていたタイムコードである。
【0105】
すなわち、F4キーが操作された場合、テキスト入力エリア172において、入力可能状態のセルが、次項目のセルに移行し、F4キーが操作された時点で再生されていた動画のタイムコードが、現項目のIN点表示エリア173に表示される。
【0106】
図6に示される文字おこしデータ表示エリアが表示されている状態で、操作部51に含まれる所定のキー(この例においてはF8キー)が操作された場合、文字おこしデータ表示エリアは、図10に示される表示状態になる。
【0107】
図10においては、テキスト入力エリア172の入力可能状態のセルが13項目目に移動し、OUT点表示エリア174の12項目目のセル内に、タイムコード「00:07:31」が表示されている。OUT点表示エリア174の12項目目のセル内に表示されたタイムコードは、F8キーが操作された時点で、タイムコード表示エリア130に表示されていたタイムコードである。
【0108】
すなわち、F8キーが操作された場合、テキスト入力エリア172において、入力可能状態のセルが、次項目のセルに移行し、F8キーが操作された時点で再生されていた動画のタイムコードが、現項目のOUT点表示エリア174に表示される。
【0109】
図6に示される文字おこしデータ表示エリアが表示されている状態で、操作部51に含まれる所定のキー(この例においてはF9キー)が操作された場合、またはOUT点設定ボタン129が操作された場合、文字おこしデータ表示エリアは、図11に示される表示状態になる。
【0110】
図11においては、テキスト入力エリア172の12項目目のセルが、入力可能状態から、選択状態に変更され、OUT点表示エリア174の12項目目のセル内に、タイムコード「00:07:31」が表示されている。OUT点表示エリア174の12項目目のセル内に表示されたタイムコードは、F9キー(またはOUT点設定ボタン129)が操作された時点で、タイムコード表示エリア130に表示されていたタイムコードである。
【0111】
すなわち、F9キー(またはOUT点設定ボタン129)が操作された場合、テキスト入力エリア172において、入力可能状態のセルが、選択状態に変更され、F9キーが操作された時点で再生されていた動画のタイムコードが、現項目のOUT点表示エリア174に表示される。
【0112】
以上、図6乃至図11を参照して説明したように、ユーザは、所定のボタン(またはキー)を操作することにより、入力可能状態のセルを移行したり、入力可能状態から選択状態に変更したりすることができ、また、IN点表示エリア173に表示されるIN点のタイムコード、およびOUT点表示エリア174に表示されるOUT点のタイムコードを、設定することができる。上記したように、1操作で、テキスト入力エリア172の入力可能状態のセルを変更し、かつ、IN点またはOUT点のタイムコードを取得することができるため、入力可能状態のセルの変更のための操作と、IN点(またはOUT点)を設定するための操作を、別々に行なう場合と比べて、ユーザの使い勝手が向上する。
【0113】
次に、図6のフローチャートを参照して、情報処理装置1の項目選択処理について説明する。
【0114】
図6のステップS201において、制御部52は、操作部51からの操作信号に基づいて、Tabキーが操作されたか否かを判定し、Tabキーが操作された場合、処理はステップS202に進む。
【0115】
ステップS202において、制御部52は、タイムコード取得部59に、現在再生中の動画のタイムコードを取得するように指令する。また、制御部52は、次項目のIN点に、現在再生中の動画のタイムコードを入力し、次項目のテキスト入力エリア172を入力可能状態にするように、データ管理部63に指令する。
【0116】
タイムコード取得部59は、制御部52からの指令に従って、再生制御部55から、Tabキーが操作された時点のタイムコードを取得し、データ管理部63に供給する。データ管理部63は、タイムコード取得部59から供給されたタイムコードを、IN点表示エリア173の次項目のセル内に表示するデータとして記憶する。また、データ管理部63は、テキスト入力エリア172の入力可能状態のセルを、次項目のセルに変更して、記憶を更新する。データ管理部63は、更新した情報を表示制御部56に通知する。表示制御部56は、データ管理部63からの通知に基づいて、表示用データを作成し、表示部57に表示させる。結果的に、表示部57に表示された文字おこしデータ表示エリアにおいて、IN点表示エリア173の次項目のセルに、Tabキーが操作された時点のタイムコードが表示され、テキスト入力エリア172の次項目のセルが、入力可能状態にされる。図6から図7の状態への変化は、この例を表している。
【0117】
ステップS202の処理の後、処理はステップS201に戻り、ステップS201以降の処理がくり返し実行される。
【0118】
ステップS201において、制御部52が、Tabキーは操作されていないと判定した場合、処理はステップS203に進む。
【0119】
ステップS203において、制御部52は、操作部51からの操作信号に基づいて、IN点設定ボタン128およびF3キーの少なくともいずれかが操作されたか否かを判定し、IN点設定ボタン128およびF3キーの少なくともいずれかが操作された場合、処理はステップS204に進む。
【0120】
ステップS204において、制御部52は、タイムコード取得部59に、現在再生中の動画のタイムコードを取得するように指令する。また、制御部52は、現項目のIN点に、現在再生中の動画のタイムコードを入力し、現項目のテキスト入力エリア172を選択状態にするように、データ管理部63に指令する。
【0121】
タイムコード取得部59は、制御部52からの指令に従って、再生制御部55から、IN点設定ボタン128(またはF3キー)が操作された時点のタイムコードを取得し、データ管理部63に供給する。データ管理部63は、タイムコード取得部59から供給されたタイムコードを、IN点表示エリア173の現項目のセル内に表示するデータとして記憶する。また、データ管理部63は、テキスト入力エリア172の入力可能状態のセルを、選択状態に変更して、記憶を更新する。データ管理部63は、更新した情報を表示制御部56に通知する。表示制御部56は、データ管理部63からの通知に基づいて、表示用データを作成し、表示部57に表示させる。結果的に、表示部57に表示された文字おこしデータ表示エリアにおいて、IN点表示エリア173の現項目のセルに、IN点設定ボタン128(またはF3キー)が操作された時点のタイムコードが表示され、テキスト入力エリア172の入力可能状態だったセルが、選択状態に変更される。図6から図8の状態への変化は、この例を表している。
【0122】
ステップS204の処理の後、処理はステップS201に戻り、ステップS201以降の処理がくり返し実行される。
【0123】
ステップS203において、制御部52が、IN点設定ボタン128もF3キーも操作されていないと判定した場合、処理はステップS205に進む。
【0124】
ステップS205において、制御部52は、操作部51からの操作信号に基づいて、F4キーが操作されたか否かを判定し、F4キーが操作された場合、処理はステップS206に進む。
【0125】
ステップS206において、制御部52は、タイムコード取得部59に、現在再生中の動画のタイムコードを取得するように指令する。また、制御部52は、現項目のIN点に、現在再生中の動画のタイムコードを入力し、次項目のテキスト入力エリア172を入力可能状態にするように、データ管理部63に指令する。
【0126】
タイムコード取得部59は、制御部52からの指令に従って、再生制御部55から、F4キーが操作された時点のタイムコードを取得し、データ管理部63に供給する。データ管理部63は、タイムコード取得部59から供給されたタイムコードを、IN点表示エリア173の現項目のセル内に表示するデータとして記憶する。また、データ管理部63は、テキスト入力エリア172の入力可能状態のセルを、次項目のセルに移行して、記憶を更新する。データ管理部63は、更新した情報を表示制御部56に通知する。表示制御部56は、データ管理部63からの通知に基づいて、表示用データを作成し、表示部57に表示させる。結果的に、表示部57に表示された文字おこしデータ表示エリアにおいて、IN点表示エリア173の現項目のセルに、F4キーが操作された時点のタイムコードが表示され、テキスト入力エリア172の入力可能状態のセルが、次項目のセルに移行される。図6から図9の状態への変化は、この例を表している。
【0127】
ステップS206の処理の後、処理はステップS201に戻り、ステップS201以降の処理がくり返し実行される。
【0128】
ステップS205において、制御部52が、F4キーは操作されていないと判定した場合、処理はステップS207に進む。
【0129】
ステップS207において、制御部52は、操作部51からの操作信号に基づいて、F8キーが操作されたか否かを判定し、F8キーが操作された場合、処理はステップS208に進む。
【0130】
ステップS208において、制御部52は、タイムコード取得部59に、現在再生中の動画のタイムコードを取得するように指令する。また、制御部52は、現項目のOUT点に、現在再生中の動画のタイムコードを入力し、次項目のテキスト入力エリア172を入力可能状態にするように、データ管理部63に指令する。
【0131】
タイムコード取得部59は、制御部52からの指令に従って、再生制御部55から、F8キーが操作された時点のタイムコードを取得し、データ管理部63に供給する。データ管理部63は、タイムコード取得部59から供給されたタイムコードを、OUT点表示エリア174の現項目のセル内に表示するデータとして記憶する。また、データ管理部63は、テキスト入力エリア172の入力可能状態のセルを、次項目のセルに移行して、記憶を更新する。データ管理部63は、更新した情報を表示制御部56に通知する。表示制御部56は、データ管理部63からの通知に基づいて、表示用データを作成し、表示部57に表示させる。結果的に、表示部57に表示された文字おこしデータ表示エリアにおいて、OUT点表示エリア174の現項目のセルに、F8キーが操作された時点のタイムコードが表示され、テキスト入力エリア172の入力可能状態のセルが、次項目のセルに移行される。図6から図10の状態への変化は、この例を表している。
【0132】
ステップS208の処理の後、処理はステップS201に戻り、ステップS201以降の処理がくり返し実行される。
【0133】
ステップS207において、制御部52が、F4キーは操作されていないと判定した場合、処理はステップS209に進む。
【0134】
ステップS209において、制御部52は、操作部51からの操作信号に基づいて、OUT点設定ボタン129およびF9キーのうち少なくともいずれかが操作されたか否かを判定し、OUT点設定ボタン129およびF9キーのうち少なくともいずれかが操作された場合、処理はステップS210に進む。
【0135】
ステップS210において、制御部52は、タイムコード取得部59に、現在再生中の動画のタイムコードを取得するように指令する。また、制御部52は、現項目のOUT点に、現在再生中の動画のタイムコードを入力し、現項目のテキスト入力エリア172を選択状態にするように、データ管理部63に指令する。
【0136】
タイムコード取得部59は、制御部52からの指令に従って、再生制御部55から、OUT点設定ボタン129(またはF9キー)が操作された時点のタイムコードを取得し、データ管理部63に供給する。データ管理部63は、タイムコード取得部59から供給されたタイムコードを、OUT点表示エリア174の現項目のセル内に表示するデータとして記憶する。また、データ管理部63は、テキスト入力エリア172の入力可能状態のセルを、選択状態に変更して、記憶を更新する。データ管理部63は、更新した情報を表示制御部56に通知する。表示制御部56は、データ管理部63からの通知に基づいて、表示用データを作成し、表示部57に表示させる。結果的に、表示部57に表示された文字おこしデータ表示エリアにおいて、OUT点表示エリア174の現項目のセルに、OUT点設定ボタン129(またはF9キー)が操作された時点のタイムコードが表示され、テキスト入力エリア172の入力可能状態のセルが、選択状態に変更される。図6から図11の状態への変化は、この例を表している。
【0137】
ステップS210の処理の後、処理はステップS201に戻り、上述したステップS201以降の処理がくり返し実行される。
【0138】
ステップS209において、制御部52が、OUT点設定ボタン129もF9キーも操作されていないと判定した場合、処理はステップS201に戻り、上述したステップS201以降の処理がくり返し実行される。
【0139】
以上のようにして、項目選択処理が実行される。この項目選択処理により、ユーザは、IN点設定ボタン128、およびOUT点設定ボタン129、並びにTabキー、F3キー、F4キー、F8キー、およびF9キーのうち、いずれかのボタンまたはキーを1回操作するという容易な操作で、入力可能状態の項目を移行したり、入力可能状態から選択状態に変更したり、IN点表示エリア173に表示されるIN点のタイムコード、およびOUT点表示エリア174に表示されるOUT点のタイムコードを、設定することができる。
【0140】
次に、図13のフローチャートを参照して、情報処理装置1の音声認識処理について説明する。
【0141】
図13のステップS301において、音声入力部61は、マイクロフォン72から、音声信号の入力を検出し、音声信号をA/D変換して、音声データを生成し、音声認識部62に供給する。
【0142】
ステップS301の後、ステップS302において、音声認識部62は、音声入力部61から供給された音声データを音声認識して、テキストデータを生成し、生成したテキストデータを、データ管理部63に供給する。なお、音声認識して、テキストデータを生成する方法は、既知の技術を利用すればよい。
【0143】
ステップS302の処理の後、ステップS303において、データ管理部63は、音声認識部62から供給されたテキストデータを、テキスト入力エリア172のうち、入力可能状態に設定されているセルに表示するテキストデータとして記憶し、記憶したテキストデータを、表示制御部56に供給する。表示制御部56は、データ管理部63から供給されたテキストデータに基づくテキストを、入力可能状態に設定されているセル内に表示させた表示用データを生成し、表示部57に表示させる。その結果、表示部57に表示されたテキスト入力エリア172には、入力可能状態のセル内に、音声認識して生成されたテキストデータに基づくテキストが表示される。
【0144】
なお、入力可能状態のセルに、既にテキストデータが入力されていた場合、新たに生成されたテキストデータは、既に存在するテキストデータの後ろに追加するようにして記憶される。従って、テキスト入力エリア172の入力可能状態のセルには、既に表示されているテキストの後ろに、新しく生成されたテキストが追加して表示される。
【0145】
ステップS303の処理の後、処理はステップS301に戻り、上述したステップS301以降の処理がくり返し実行される。
【0146】
なお、テキスト入力エリア172に入力可能状態のセルが存在しなかった場合、音声認識部62で生成されたテキストデータは、データ管理部63により破棄される。
【0147】
以上のようにして、音声認識処理が実行される。
【0148】
ところで、本発明においては、ユーザは、文字おこしデータ表示エリアに表示させる情報(テキスト、IN点のタイムコード、OUT点のタイムコード、期間情報、およびサムネール)を全て表示することもできるが、選択的に表示させることができる。また、ユーザは、サムネール表示エリア176に表示させるサムネールの取得タイミングを設定することができる。また、ユーザは、1つの項目を2つに分割することができる。ユーザは、ユーザ設定ウィンドウを表示させて、これらの設定を行うことができる。
【0149】
次に、図14のフローチャートを参照して、情報処理装置1のユーザ設定処理について説明する。
【0150】
図14のステップS331において、制御部52は、操作部51からの操作信号に基づいて、ユーザ設定の実行が指示されたか否かを判定し、ユーザ設定の実行が指示されるまで、ステップS331の処理を実行して待機する。そして、ユーザ設定の実行が指示されたとき、処理はステップS332に進む。
【0151】
ステップS332において、制御部52は、データ管理部63に、現在のユーザ設定データを表示制御部56に供給するように指令するとともに、表示制御部56に、ユーザ設定ウィンドウを表示するように指令する。データ管理部63は、制御部52からの指令に従って、記憶しているユーザ設定データを表示制御部56に供給する。表示制御部56は、データ管理部63から供給されたユーザ設定データに基づいて、ユーザ設定ウィンドウを表示部57に表示させる。図15乃至図17は、表示部57に表示されたユーザ設定ウィンドウ301の例を表している。
【0152】
図15において、ユーザ設定ウィンドウ301には、タブ311乃至313が表示されている。操作部51(マウス)が操作され、タブ311上にポインタが表示された状態でクリックされると、図15のようなユーザ設定ウィンドウ301が表示される。操作部51(マウス)が操作され、タブ312上にポインタが表示された状態でクリックされると、図16のようなユーザ設定ウィンドウ301が表示される。操作部51(マウス)が操作され、タブ313上にポインタが表示された状態でクリックされると、図17のようなユーザ設定ウィンドウ301が表示される。
【0153】
図15のユーザ設定ウィンドウ301には、項目選択欄321乃至325も表示されている。図15は、操作部51(マウス)が操作されて、タブ311が選択された場合の表示例である。タブ311が選択されると、文字おこしデータ表示エリアに表示させる項目の選択を受け付ける項目選択欄321乃至325が表示される。
【0154】
操作部51(マウス)が操作され、ポインタが項目選択欄321上に表示された状態で、クリックされた場合、項目選択欄321にチェックが表示され、再度、クリックされた場合、チェックの表示が消去される。項目選択欄321にチェックが表示された状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアにテキスト入力エリア172が表示され、項目選択欄321にチェックが表示されていない状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアには、テキスト入力エリア172は表示されない。ユーザは、項目選択欄321にチェックを付けるか否かにより、テキスト入力エリア172を表示させるか否かを選択することができる。
【0155】
操作部51(マウス)が操作され、ポインタが項目選択欄322上に表示された状態で、クリックされた場合、項目選択欄322にチェックが表示され、再度、クリックされた場合、チェックの表示が消去される。項目選択欄322にチェックが表示された状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアにIN点表示エリア173が表示され、項目選択欄322にチェックが表示されていない状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアには、IN点表示エリア173は表示されない。ユーザは、項目選択欄322にチェックを付けるか否かにより、IN点表示エリア173を表示させるか否かを選択することができる。
【0156】
操作部51(マウス)が操作され、ポインタが項目選択欄323上に表示された状態で、クリックされた場合、項目選択欄323にチェックが表示され、再度、クリックされた場合、チェックの表示が消去される。項目選択欄323にチェックが表示された状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアにOUT点表示エリア174が表示され、項目選択欄323にチェックが表示されていない状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアには、OUT点表示エリア174は表示されない。ユーザは、項目選択欄323にチェックを付けるか否かにより、OUT点表示エリア174を表示させるか否かを選択することができる。
【0157】
操作部51(マウス)が操作され、ポインタが項目選択欄324上に表示された状態で、クリックされた場合、項目選択欄324にチェックが表示され、再度、クリックされた場合、チェックの表示が消去される。項目選択欄324にチェックが表示された状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアにサムネール表示エリア176が表示され、項目選択欄324にチェックが表示されていない状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアには、サムネール表示エリア176は表示されない。ユーザは、項目選択欄324にチェックを付けるか否かにより、サムネール表示エリア176を表示させるか否かを選択することができる。
【0158】
操作部51(マウス)が操作され、ポインタが項目選択欄325上に表示された状態で、クリックされた場合、項目選択欄325にチェックが表示され、再度、クリックされた場合、チェックの表示が消去される。項目選択欄325にチェックが表示された状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアに期間表示エリア175が表示され、項目選択欄325にチェックが表示されていない状態で、設定を登録した場合、文字おこし実行ウィンドウ101の文字おこしデータ表示エリアには、期間表示エリア175は表示されない。ユーザは、項目選択欄325にチェックを付けるか否かにより、期間表示エリア175を表示させるか否かを選択することができる。
【0159】
なお、図15の例においては、テキスト入力エリア172の表示、非表示を選択可能になっているが、項目選択欄321のチェックは、操作部51を操作しても外せないようにしても良い。これにより、文字おこしデータ表示エリアに、テキスト入力エリア172を、常に表示させることができる。また、項目選択欄321を設けないようにしても勿論良い。その他の項目選択欄322乃至325についても、同様に、操作部51を操作しても外せないようにしても良い。
【0160】
図15に示されるユーザ設定ウィンドウ301の右下方には、OKボタン331およびキャンセルボタン332が表示されている。操作部51(マウス)が操作されて、ポインタがOKボタン331上に表示されている状態で、クリックされた場合、現在、ユーザ設定ウィンドウ301で設定中の設定内容が登録され、データ管理部63に記憶されたユーザ設定データが更新される。また、操作部51(マウス)が操作されて、ポインタがキャンセルボタン332上に表示されている状態で、クリックされた場合、現在、ユーザ設定ウィンドウ301で設定中の設定内容は廃棄され、既に設定されていたユーザ設定データが保持される。
【0161】
次に、図16は、タブ312が選択された場合のユーザ設定ウィンドウ301の表示例である。図16のユーザ設定ウィンドウ301においては、タブ311乃至313、OKボタン331、およびキャンセルボタン332の他に、タブ312に関連付けられた設定項目が表示されている。
【0162】
項目選択欄351A乃至351Dは、サムネールを取得するタイミングを選択するための選択欄であり、ユーザは、操作部51を操作して、項目選択欄351A乃至351Dの中から、所望の項目を1つだけ選択することができる。図16の例においては、項目選択欄351Cが選択されており、項目選択欄351C内に、選択されていることを示す点が表示されている。
【0163】
項目選択欄351Aが選択されて、設定が登録された場合、サムネール表示エリア176には、IN点のタイムコードに対応するフレームを縮小したサムネールが表示される。項目選択欄351Bが選択されて、設定が登録された場合、サムネール表示エリア176には、IN点のタイムコードから、時間設定欄352で設定された時間分だけ後のタイムコードに対応するフレームを縮小したサムネールが表示される。ユーザは、操作部51を操作して、時間設定欄352に、この時間を設定することができる。項目選択欄351Cが選択されて、設定が登録された場合、サムネール表示エリア176には、IN点とOUT点の間の、取得地点設定欄353で設定された地点のタイムコードに対応するフレームを縮小したサムネールが表示される。例えば、図16のように取得地点設定欄353に、1/3と設定され、IN点のタイムコードが「00:00:30」で、OUT点のタイムコードが「00:01:00」であった場合、IN点とOUT点の1/3地点のタイムコード「00:00:40」に対応するフレームが縮小されたサムネールが、サムネール表示エリア176に表示される。項目選択欄351Dが選択されて、設定が登録された場合、サムネール表示リエア176には、OUT点のタイムコードに対応するフレームを縮小したサムネールが表示される。なお、OUT点が設定されなかった場合、次項目のIN点の直前のフレームが縮小されて、サムネール表示欄176に表示される。
【0164】
次に、図17は、タブ313が選択された場合のユーザ設定ウィンドウ301の表示例である。図17のユーザ設定ウィンドウ301においては、タブ311乃至313、OKボタン331、およびキャンセルボタン332の他に、タブ313に関連付けられた設定項目が表示されている。
【0165】
ユーザは、1つの項目を、2つの項目に分割することができる。例えば、テキスト入力エリア172の10項目目のセルに「ABCDEFG」と表示され、ユーザが、これを「ABCD」と「EFG」に分割したい場合、所定の操作をすることにより分割することができ、分割後に、「ABCD」は、テキスト入力エリア172の10項目目のセルに表示され、「EFG」は、テキスト入力エリア172の11項目目のセルに表示される。ここで、分割されたセルのうち、項目番号の小さいセルを、前半セルと称し、項目番号の大きいセルを、後半セルと称する。
【0166】
項目選択欄371Aおよび371Bは、項目を2つに分割した際に、後半セルのIN点のタイムコードの取得方法を設定するための選択欄である。ユーザは、項目選択欄371Aおよび371Bのうち、いずれか一方を選択することができる。図17の例においては、項目選択欄371Bが選択されており、選択されたことを意味する点が示されている。
【0167】
項目選択欄371Aが選択されて、設定が登録された場合、1つの項目が2つに分割されたとき、分割前のIN点のタイムコードが、後半セルのIN点のタイムコードとして取得され、IN点表示エリア173に表示される。
【0168】
項目選択欄371Bが選択されて、設定が登録された場合、1つの項目が2つに分割されたとき、テキストデータの分割位置までの文字数を、文字数設定欄372で設定された値で割り算した商が、分割前のIN点のタイムコードに足し算されて、後半セルのIN点のタイムコードとされる。
【0169】
項目選択欄371Bが選択された場合のセルの分割について、図18および図19を参照して、さらに詳細に説明する。図18は、文字おこし実行ウィンドウ101のうち、文字おこしデータ入力エリアの一部分のみを示したものである。図18において、テキスト入力エリア172の10項目目のセルには、テキスト「まずお手元の資料の方確認させていただきます」が表示され、IN点表示エリア173の10項目目のセルには、タイムコード「00:00:56」が表示されている。また、テキスト入力エリア172の11項目目のセルには、テキスト「私どもが従来から取り扱っておりますDVDのオーサリングの資料」が表示され、IN点表示エリア173の11項目目のセルには、タイムコード「00:01:06」が表示されている。また、テキスト入力エリア172の12項目目のセルには、テキスト「3ページ目をごらん下さい」が表示され、IN点表示エリア173の12項目目のセルには、タイムコード「00:01:12」が表示されている。
【0170】
なお、図18においては、OUT点表示エリア174、期間表示エリア175、およびサムネール表示エリア176への情報の表示は図示を省略しているが、実際には、表示されていても良い。また、図18においては、1項目目および9項目目のセルへの情報の図示は省略しているが、実際には、表示されていても良い。
【0171】
図18においては、テキスト入力エリア172の11項目目のセルが、入力可能状態とされており、斜線はそのことを意味している。ユーザは、テキスト入力エリア172の11項目目のセルに表示されているテキストの任意の位置で、テキストを2つのセルに分割することができる。ユーザは、操作部51を操作して、例えば、カーソル401を、テキストの分割したい位置に移動させ、分割を指示することができる。図18の例におては、「私どもが従来から取り扱っております」と「DVDのオーサリングの資料」の間に、カーソル401が表示されており、この位置で、テキストを分割するものとする。操作部51から、分割を指示する操作が入力された場合、文字おこしデータ表示エリアは、図19に示されるような状態に変更される。
【0172】
図19においては、分割前のテキスト入力エリア172の11項目目のセル内に表示されていたテキストのうち、「私どもが従来から取り扱っております」が、そのまま11項目目のセルに表示され、「DVDのオーサリングの資料」が、12項目目のセルに表示されている。また、テキスト入力エリア172の11項目目のセルは、入力可能状態が解除され、テキスト入力エリア172の12項目目のセルは、選択状態に設定されている。
【0173】
また、IN点表示エリア173の12項目目には、タイムコード「00:01:09」が表示されている。このタイムコードは、以下のようにして、算出される。
【0174】
まず、「私どもが従来から取り扱っております」の文字数(17文字)が取得される。次に、取得された文字数(17文字)が、図17の文字数設定欄372で設定された文字数(図17の例の場合、5文字)で割り算され、その商(=3)が取得される。次に、分割前の11項目目のIN点のタイムコード「00:01:06」の秒の位「06」に、商(=3)が足し算されて、後半セルのIN点のタイムコード「00:01:09」とされる。
【0175】
人は、訓練により、単位時間当りに発話する文字数を、ある程度、一定に保つことができる。従って、上述したように、1秒あたりに発話する文字数を、文字数設定欄372で、予め設定しておき、項目を分割する際に、分割する位置までの文字数を、文字数設定欄372で設定された文字数で割り算することにより、分割位置までのテキストを発話するのに要する凡その時間を算出することができる。従って、算出した時間を、分割前のIN点のタイムコードに足し算することにより、分割後の後半セルのIN点のタイムコードを推測することができる。このようにすることにより、ユーザは、項目を分割した際に、後半セルのIN点のタイムコードを、マニュアルで設定する必要がなくなり、利便性が向上する。
【0176】
また、図18において、テキスト入力エリア172の12項目目のセルに表示されていたテキスト「3ページ目をごらん下さい」、およびIN点表示エリア173の12項目目のセル表示されていたタイムコード「00:01:12」は、図19においては、13項目目に移動している。すなわち、セルの分割により、項目が1つ増加したため、分割された項目以降の項目が、順次、後ろにくり下げられる。
【0177】
図14に戻って、ステップS332において、制御部52は、表示制御部56に、以上の図15乃至図17のようなユーザ設定ウィンドウ301を表示させ、種々の項目の選択、および入力を受け付ける。
【0178】
ステップS333において、制御部52は、操作部51からの操作信号に基づいて、OKボタン331が操作されたか否かを判定し、OKボタン331が操作された場合、処理はステップS334に進む。
【0179】
ステップS334において、制御部52は、ユーザ設定ウィンドウ301で設定された内容を、ユーザ設定データとして記憶するように、データ管理部63に要求する。データ管理部63は、制御部52からの要求に従って、ユーザ設定ウィンドウ301で設定された内容をユーザ設定データとして記憶する。なお、データ管理部63は、それまで記憶していたユーザ設定データを消去する。これにより、ユーザ設定データが更新される。
【0180】
また、制御部52は、表示制御部56に、ユーザ設定ウィンドウ301を消去するように指令する。表示制御部56は、制御部52からの指令に従って、ユーザ設定ウィンドウ301を、表示部57から消去する。消去後、一連のユーザ設定処理が終了する。
【0181】
ステップS333において、制御部52が、OKボタン331は操作されていないと判定した場合、処理はステップS335に進む。
【0182】
ステップS335において、制御部52は、操作部51からの操作信号に基づいて、キャンセルボタン332が操作されたか否かを判定し、キャンセルボタン332が操作されていない場合、処理はステップS332に戻り、ステップS332以降の処理をくり返し実行する。
【0183】
ステップS335において、制御部52が、キャンセルボタン332が操作されたと判定した場合、処理はステップS336に進む。
【0184】
ステップS336において、制御部52は、ユーザ設定ウィンドウ301で設定された内容を破棄する。従って、この場合、データ管理部63は、それまで記憶していたユーザ設定データを、継続して保持する。
【0185】
また、制御部52は、表示制御部56に、ユーザ設定ウィンドウ301を消去するように指令する。表示制御部56は、制御部52からの指令に従って、ユーザ設定ウィンドウ301を、表示部57から消去する。消去後、一連のユーザ設定処理が終了する。
【0186】
以上のようにして、ユーザ設定処理が実行される。
【0187】
次に、図16で設定されたサムネールの取得タイミングに基づいて、サムネールを取得するサムネール取得処理について、図20のフローチャートを参照して説明する。
【0188】
図12のフローチャートを参照して説明したように、Tabキー、F3キー、およびF4キー、並びにIN点設定ボタン128のうち、いずれかが操作された場合、IN点のタイムコードが設定される。そこで、図20のステップS361において、制御部52は、Tabキー、F3キー、およびF4キー、並びにIN点設定ボタン128のうち、いずれかが操作されたか否かを判定することにより、IN点が設定されたか否かを判定し、Tabキー、F3キー、およびF4キー、並びにIN点設定ボタン128のうち、いずれかが操作された場合(IN点が設定された場合)、処理はステップS362に進む。
【0189】
ステップS362において、制御部52は、データ管理部63に記憶されたユーザ設定データを読み出し、このユーザ設定データに基づいて、IN点のタイムコードに対応するフレームを縮小してサムネールを作成する設定(図16で項目選択欄351Aが選択されていた)か否かを判定し、IN点のタイムコードに対応するフレームを縮小してサムネールを作成する設定ではない場合、処理はステップS363に進む。
【0190】
ステップS363において、制御部52は、データ管理部63に記憶されたユーザ設定データを読み出し、このユーザ設定データに基づいて、IN点のタイムコードから、時間設定欄352で設定された時間後のタイムコードに対応するフレームを縮小してサムネールを作成する設定(図16で項目選択欄351Bが選択されていた)か否かを判定し、IN点のタイムコードから、時間設定欄352で設定された時間後のタイムコードに対応するフレームを縮小してサムネールを作成する設定であった場合、処理はステップS364に進む。
【0191】
ステップS364において、制御部52は、設定されたIN点のタイムコードに、時間設定欄352で設定された時間を足し算して、フレームを取得するべきタイムコードを算出し、算出したタイムコードに対応するフレームを読み出して、サムネール取得部60に供給するように、再生制御部55に指令する。再生制御部55は、制御部52からの指令に従って、フレームを取得すべきタイムコードに対応するフレームを読み出し、サムネール取得部60に供給する。サムネール取得部60は、再生制御部55から供給されたフレームを縮小して、サムネールを生成し、データ管理部63に供給する。データ管理部63は、サムネール取得部60から供給されたサムネールを、IN点が設定された項目用のサムネールとして記憶する。その後、処理はステップS371に進む。
【0192】
ステップS363において、制御部52が、IN点のタイムコードから、時間設定欄352で設定された時間後のタイムコードに対応するフレームを縮小してサムネールを作成する設定ではないと判定した場合、処理はステップS361に戻り、上述したステップS361以降の処理をくり返し実行する。
【0193】
ステップS362において、制御部52が、IN点のタイムコードに対応するフレームを縮小してサムネールを作成する設定であると判定した場合、処理はステップS365に進む。
【0194】
ステップS365において、制御部52は、設定されたIN点のタイムコードに対応するフレームを読み出して、サムネール取得部60に供給するように、再生制御部55に指令する。再生制御部55は、制御部52からの指令に従って、IN点のタイムコードに対応するフレームを読み出し、サムネール取得部60に供給する。サムネール取得部60は、再生制御部55から供給されたフレームを縮小して、サムネールを生成し、データ管理部63に供給する。データ管理部63は、サムネール取得部60から供給されたサムネールを、IN点が設定された項目用のサムネールとして記憶する。その後、処理はステップS371に進む。
【0195】
ステップS361において、制御部52が、Tabキー、F3キー、およびF4キー、並びにIN点設定ボタン128のいずれも操作されていないと判定した場合(IN点が設定されていない場合)、処理はステップS366に進む。
【0196】
図12のフローチャートを参照して説明したように、F8キーおよびF9キー、並びにOUT点設定ボタン129のうち、いずれかが操作された場合、OUT点のタイムコードが設定される。そこで、ステップS366において、制御部52は、F8キーおよびF9キー、並びにOUT点設定ボタン129のうち、いずれかが操作されたか否かを判定することにより、OUT点が設定されたか否かを判定し、F8キーおよびF9キー、並びにOUT点設定ボタン129のいずれも操作されていない場合(OUT点が設定されていない場合)、処理はステップS361に戻り、上述したステップS361以降の処理をくり返し実行する。
【0197】
ステップS366において、制御部52が、F8キーおよびF9キー、並びにOUT点設定ボタン129のうち、いずれかが操作されたと判定した場合(OUT点が設定された場合)、処理はステップS367に進む。
【0198】
ステップS367において、制御部52は、データ管理部63に記憶されたユーザ設定データを読み出し、このユーザ設定データに基づいて、OUT点のタイムコードに対応するフレームを縮小してサムネールを作成する設定(図16で項目選択欄351Dが選択されていた)か否かを判定し、OUT点のタイムコードに対応するフレームを縮小してサムネールを作成する設定であった場合、処理はステップS368に進む。
【0199】
ステップS368において、制御部52は、設定されたOUT点のタイムコードに対応するフレームを読み出して、サムネール取得部60に供給するように、再生制御部55に指令する。再生制御部55は、制御部52からの指令に従って、OUT点のタイムコードに対応するフレームを読み出し、サムネール取得部60に供給する。サムネール取得部60は、再生制御部55から供給されたフレームを縮小して、サムネールを生成し、データ管理部63に供給する。データ管理部63は、サムネール取得部60から供給されたサムネールを、OUT点が設定された項目用のサムネールとして記憶する。その後、処理はステップS371に進む。
【0200】
ステップS367において、制御部52が、OUT点のタイムコードに対応するフレームを縮小してサムネールを作成する設定ではないと判定した場合、処理はステップS369に進む。
【0201】
ステップS369において、制御部52は、データ管理部63に記憶されたユーザ設定データを読み出し、このユーザ設定データに基づいて、IN点とOUT点の間の、取得地点設定欄353で設定された地点のタイムコードに対応するフレームを縮小してサムネールを作成する設定(図16で項目選択欄351Cが選択されていた)か否かを判定し、IN点とOUT点の間の、取得地点設定欄353で設定された地点のタイムコードに対応するフレームを縮小してサムネールを作成する設定であった場合、処理はステップS370に進む。
【0202】
ステップS370において、制御部52は、IN点とOUT点のタイムコード、および取得地点設定欄353の設定に基づいて、サムネールを取得すべきタイムコードを算出する。ここで、IN点のタイムコードをTC(IN)とし、OUT点のタイムコードをTC(OUT)とし、取得地点設定欄353に設定された値を値Xとすると、制御部52は、まず、TC(IN)とTC(OUT)の差を算出する。次に、制御部52は、この差を、値Xで割り算して、商を求める。次に、制御部52は、この商を、TC(IN)に足し算して、サムネールを取得すべきタイムコードとする。
【0203】
例えば、TC(IN)が「00:00:30」で、TC(OUT)が「00:01:00」で、X=1/3あった場合、制御部52は、まず、TC(IN)とTC(OUT)の差(=30秒)を求め、この差を、X=1/3で割り算して商(=10)を求め、この商を、TC(IN)の秒の位に足し算して、サムネールを取得すべきタイムコード「00:00:40」を算出する。
【0204】
制御部52は、算出したタイムコードを再生制御部55に通知するとともに、このタイムコードに対応するフレームを読み出して、サムネール取得部60に供給するように、再生制御部55に指令する。再生制御部55は、制御部52からの指令に従って、供給されたタイムコードに対応するフレームを読み出し、サムネール取得部60に供給する。サムネール取得部60は、再生制御部55から供給されたフレームを縮小して、サムネールを生成し、データ管理部63に供給する。データ管理部63は、サムネール取得部60から供給されたサムネールを、OUT点が設定された項目用のサムネールとして記憶する。その後、処理はステップS371に進む。
【0205】
ステップS371において、データ管理部63は、記憶したサムネールを、IN点(またはOUT点)が設定された項目の項目番号とともに、表示制御部56に供給する。表示制御部56は、データ管理部63から供給されたサムネールを、ともに供給された項目番号のサムネールとして表示させるようにした表示用データを生成し、この表示用データを表示部57に供給する。
【0206】
表示部57は、表示制御部56から供給された表示用データに基づく画像を表示する。その結果、IN点(またはOUT点)が設定されたタイミングで、サムネール表示エリア176のうち、IN点(またはOUT点)が設定されたのと同じ項目のセル内に、IN点(またはOUT点)のタイムコードに対応するフレームを縮小したサムネールが表示される。
【0207】
以上のようにして、サムネール取得処理が実行される。サムネールをテキストデータとともに表示させることにより、この文字おこしデータを参照して編集する編集者は、テキストデータだけを表示させた場合より、容易に、収録された内容を把握することが可能となる。このように、サムネールを取得するタイミングを選択することができるため、より適切なタイミングで、サムネールを取得することが可能となる。
【0208】
次に、図21のフローチャートを参照して、図17で項目選択欄371Bが選択された場合の、情報処理装置1のセル分割処理(図18および図19を参照して説明した処理)について説明する。
【0209】
図21のステップS401において、制御部52は、操作部51からの操作信号に基づいて、セルを分割する指示が入力されたか否かを判定し、セルを分割する指示が入力されるまで、ステップS401の処理をくり返し実行して待機する。そして、セルを分割させる指示が入力されたとき、制御部52は、データ管理部63に、セルを分割するように指令し、処理はステップS402に進む。
【0210】
ステップS402において、データ管理部63は、分割位置(カーソル401の表示位置)までの文字数を取得する。例えば、図18の例の場合、データ管理部63は、カーソル401の表示位置までのテキストの文字数(17文字)を取得する。ステップS402の処理の後、処理はステップS403に進む。
【0211】
ステップS403において、データ管理部63は、ステップS402で算出された文字数を、図17の文字数設定欄372で設定された文字数で割り算して、商を求める。図17の例の場合、文字数設定欄372に、5文字と設定されている。そこで、ステップS402で取得された文字数が17文字であった場合、データ管理部63は、17÷5=3・・・2を算出し、この商(=3)を取得する。その後、処理はステップS404に進む。
【0212】
ステップS404において、データ管理部63は、ステップS403で求めた商を、IN点のタイムコードに足し算して、分割した後半セルのIN点のタイムコードとして設定する。例えば、図18の11項目目のように、IN点のタイムコードが、「00:01:06」で、ステップS403で商として3が求められた場合、データ管理部63は、この商(=3)を、IN点のタイムコードの秒の位「06」に足し算して、後半セルのIN点のタイムコード「00:01:09」を求める。ステップS404の処理の後、処理はステップS405に進む。
【0213】
ステップS405において、データ管理部63は、テキストデータを、分割位置(カーソル401の表示位置)で分割して、2つのテキストデータを生成する。図18の例の場合、データ管理部63は、テキストデータ「私どもが従来から取り扱っておりますDVDのオーサリングの資料」を分割して、2つのテキストデータ「私どもが従来から取り扱っております」および「DVDのオーサリングの資料」を生成する。その後、処理はステップS406に進む。
【0214】
ステップS406において、データ管理部63は、分割する項目以降の項目を、1つだけ、後ろに繰り下げて、設定を更新する。例えば、図18および図19の例の場合、図18で、12項目目のテキスト入力エリア172のセルに表示されたテキスト「3ページ目をごらん下さい」および12項目目のIN点表示エリア173のセルに表示されたタイムコード「00:01:12」が、図19では、1つだけ繰り下げられて、13項目目に表示されている。ステップS406の処理により、分割が指示されたセルの隣のセルが空欄になる。ステップS406の処理の後、処理はステップS407に進む。
【0215】
ステップS407において、データ管理部63は、分割されたテキスト入力エリア172のセル(分割を指示されたセル、およびステップS406で空欄になったセル)のそれぞれに、ステップS405で分割されたテキストを入力する。なお、この際、データ管理部63は、2つに分割されたテキストデータのうち、前半部分のテキストデータを、分割が指示されたセルに入力し、後半部分のテキストデータを、ステップS406で空欄にされたセルに入力する。また、データ管理部63は、分割を指示されたセルの入力可能状態を解除し、ステップS406で空欄にされたセルを、選択状態に設定する。
【0216】
ステップS407の処理の後、処理はステップS408に進む。
【0217】
ステップS408において、データ管理部63は、ステップS404で求めた、後半セルのIN点のタイムコードを、ステップS406で空欄にされたIN点表示エリア173のセルに入力する。
【0218】
ステップS408の処理の後、処理はステップS409に進む。
【0219】
ステップS409において、データ管理部63は、ステップS402乃至ステップS408の処理によりセルが分割された後の文字おこしデータを、表示制御部56に供給する。表示制御部56は、データ管理部63から供給された文字おこしデータを、文字おこしデータ表示エリアに表示させるようにした表示用データを生成し、生成した表示用データを表示部57に供給する。表示部57は、表示制御部56から供給された表示用データに基づく画像を表示する。その結果、文字おこしデータ表示エリアには、例えば、図19のような画像が表示される。
【0220】
以上のようにして、セル分割処理が実行される。
【0221】
ところで、情報処理装置1は、予め、ユーザの声の特徴を学習することにより、音声認識の認識率を向上させることができる。次に、図22のフローチャートを参照して、情報処理装置1のエンロール処理について説明する。
【0222】
図22のステップS451において、制御部52は、表示制御部56に、ユーザに発話させるべきテキストを表示するように指令する。表示制御部56は、データ管理部63より、エンロール処理用のテキストデータを取得し、このテキストデータに基づくテキストを表示部57に表示させる。その後、処理はステップS452に進む。
【0223】
ユーザは、表示部57に表示されたテキストを音読する。そこで、ステップS452において、音声入力部61は、マイクロフォン72を介して集音された音声信号を、A/D変換して音声データを生成し、生成した音声データを音声認識部62に供給する。その後、処理はステップS453に進む。
【0224】
ステップS453において、音声認識部62は、音声入力部61から供給された音声データを分析して、ユーザの声の特徴を検出し、これをユーザと対応付けて登録する。
【0225】
以上のエンロール処理の後、音声認識処理が実行された場合、音声認識部62は、ユーザの声の特徴に基づいて音声認識するため、認識率が向上する(誤ったテキストデータが生成される率を減少させることができる)。
【0226】
ところで、文字おこし処理により作成された文字おこしデータは、データ管理部63から記憶部54に供給され、記憶部54に記憶される。記憶部54にはAVデータも記憶されていることから、このAVデータとテキストデータを対応付けて再生することもできる。図23は、動画データとテキストデータを対応付けて表示した再生ウィンドウ401の例を表している。
【0227】
図23において、動画再生エリア402には、動画データが表示され、テキスト表示エリア403には、動画再生エリア402に表示されている動画データのタイムコードに対応するテキストが表示されている(図23においては「***」が表示されているが、実際にはテキストが表示される)。また、再生ボタン404は、再生ウィンドウ401において、動画を再生する場合に操作される。ポーズボタン405は、再生中に一時停止する場合に操作される。停止ボタン406は、再生中に再生を停止する場合に操作される。
【0228】
以上のようにして、本発明によれば、予め、単位時間当りにユーザが発話する文字数を設定しておくことにより、項目の分割時に、後半のテキストデータに対応するタイムコードを自動的に生成することが可能となる。従って、より利便性を向上させることが可能となる。
【0229】
また、本発明によれば、テキストデータ、IN点およびOUT点のタイムコード、並びに期間情報とともに、サムネールも取得することにより、文字おこしを実行しているユーザにも、後に文字おこしデータを利用してAVデータを編集する編集者にも、容易にAVデータの内容を把握させることが可能となる。
【0230】
また、本発明によれば、Tabキーが操作された場合、入力可能状態のテキスト入力エリアを、次の項目に移行するとともに、その時点で再生されていた動画データのタイムコードを取得し、取得したタイムコードを、移行後の入力可能状態のテキスト入力エリアと同項目のIN点のタイムコードとして設定するようにしたので、ユーザは、わざわざIN点を指定する操作を行わずに済み、利便性が向上される。
【0231】
また、本発明によれば、AVデータの内容をユーザが聞いて、復唱し、情報処理装置は、この復唱された音声を音声認識するようにしたので、より音声認識の認識率を向上させることが可能となる(発言内容と異なるテキストデータを生成する確率を減少させることができる)。また、筆記やキーボード入力と比較して、より速やかにテキストデータを作成することが可能となる。
【0232】
上述した一連の処理は、ハードウェアにより実行させることもできるし、上述したようにソフトウェアにより実行させることもできる。一連の処理をソフトウェアにより実行させる場合には、そのソフトウェアを構成するプログラムが専用のハードウェアに組み込まれているコンピュータ、または、各種のプログラムをインストールすることで、各種の機能を実行することが可能な、例えば汎用のパーソナルコンピュータなどに、記録媒体等からインストールされる。
【0233】
図24は、このような処理を実行するパーソナルコンピュータ800の内部構成例を示す図である。パーソナルコンピュータ800のCPU(Central Processing Unit)801は、ROM(Read Only Memory)802に記憶されているプログラムに従って各種の処理を実行する。RAM(Random Access Memory)803には、CPU801が各種の処理を実行する上において必要なデータやプログラムなどが適宜記憶される。入出力インタフェース805は、キーボードやマウスから構成される入力部806が接続され、入力部806に入力された信号をCPU801に出力する。また、入出力インタフェース805には、ディスプレイやスピーカなどから構成される出力部807も接続されている。
【0234】
さらに、入出力インタフェース805には、ハードディスクなどから構成される記憶部808、および、インターネットなどのネットワークを介して他の装置とデータの通信を行う通信部809も接続されている。ドライブ810は、磁気ディスク821、光ディスク822、光磁気ディスク823、半導体メモリ824などの記録媒体からデータを読み出したり、データを書き込んだりするときに用いられる。
【0235】
記録媒体は、図24に示されるように、パーソナルコンピュータとは別に、ユーザにプログラムを提供するために配布される、プログラムが記録されている磁気ディスク821(フレキシブルディスクを含む)、光ディスク822(CD−ROM(Compact Disc−Read Only Memory),DVD(Digital Versatile Disc)を含む)、光磁気ディスク823(MD(Mini−Disc)(登録商標)を含む)、若しくは半導体メモリ824などよりなるパッケージメディアにより構成されるだけでなく、コンピュータに予め組み込まれた状態でユーザに提供される、プログラムが記憶されているROM802や記憶部808が含まれるハードディスクなどで構成される。
【0236】
なお、本明細書において、媒体により提供されるプログラムを記述するステップは、記載された順序に従って、時系列的に行われる処理は勿論、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
【0237】
また、本明細書において、システムとは、複数の装置により構成される装置全体を表すものである。
【0238】
【発明の効果】
以上のように、本発明によれば、文字おこしを行なうことができる。また、本発明によれば、AVデータの編集用のデータを作成することができる。
【0239】
また、本発明によれば、より容易な操作で、より早く、テキストデータを生成することができ、利便性を向上させることが可能となる。
【図面の簡単な説明】
【図1】本発明を適用した情報処理システムの構成例を示すブロック図である。
【図2】図1の情報処理装置の構成例を示すブロック図である。
【図3】情報処理装置の文字おこし処理を説明するフローチャートである。
【図4】図2の表示部に表示される文字おこし実行ウィンドウの例を示す図である。
【図5】情報処理装置の再生制御処理を説明するフローチャートである。
【図6】文字おこしデータ表示エリアの一部分の表示例を表す図である。
【図7】文字おこしデータ表示エリアの一部分の表示例を表す他の図である。
【図8】文字おこしデータ表示エリアの一部分の表示例を表す、さらに他の図である。
【図9】文字おこしデータ表示エリアの一部分の表示例を表す図である。
【図10】文字おこしデータ表示エリアの一部分の表示例を表す他の図である。
【図11】文字おこしデータ表示エリアの一部分の表示例を表す、さらに他の図である。
【図12】情報処理装置の項目選択処理を説明するフローチャートである。
【図13】情報処理装置の音声認識処理を説明するフローチャートである。
【図14】情報処理装置のユーザ設定処理を説明するフローチャートである。
【図15】図2の表示部に表示されるユーザ設定ウィンドウの例を示す図である。
【図16】図2の表示部に表示されるユーザ設定ウィンドウの例を示す他の図である。
【図17】図2の表示部に表示されるユーザ設定ウィンドウの例を示す、さらに他の図である。
【図18】文字おこしデータ表示エリアの一部分の表示例を表す図である。
【図19】文字おこしデータ表示エリアの一部分の表示例を表す他の図である。
【図20】情報処理装置のサムネール取得処理を説明するフローチャートである。
【図21】情報処理装置のセル分割処理を説明するフローチャートである。
【図22】情報処理装置のエンロール処理を説明するフローチャートである。
【図23】図2の表示部に表示される再生ウィンドウの例を示す図である。
【図24】本発明を適用したコンピュータの一実施の形態の構成例を示すブロック図である。
【符号の説明】
1 情報処理装置
2 ヘッドセットマイク
3 カメラ一体型ビデオテープレコーダ(VTR)
51 操作部
52 制御部
55 再生制御部
56 表示制御部
57 表示部
59 タイムコード取得部
60 サムネール取得部
62 音声認識部
63 データ管理部
101 文字おこし実行ウィンドウ
111 動画表示エリア
122 再生ボタン
123 ポーズボタン
124 スキップバックボタン
125 スキップバック時間設定部
126 スキップフォワードボタン
127 スキップフォワード時間設定部
128 IN点設定ボタン
129 OUT点設定ボタン
130 タイムコード表示エリア
171 項目番号表示エリア
172 テキスト入力エリア
173 IN点表示エリア
174 OUT点表示エリア
175 期間表示エリア
176 サムネール表示エリア
201,202 サムネール

Claims (7)

  1. AVデータから文字おこしして、記録位置と対応付けられたテキストのリストを作成する情報処理装置において、
    前記AVデータを再生する再生手段と、
    前記再生手段により再生された前記AVデータのうち、音声データに基づく音声を出力する出力手段と、
    前記再生手段により再生された前記AVデータのうちの、動画データに基づく画像の表示を制御する表示制御手段と、
    前記出力手段により出力された前記音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識手段と
    を備えることを特徴とする情報処理装置。
  2. 前記音声認識手段は、予め設定された前記ユーザの声の特徴に従って、前記音声を音声認識する
    ことを特徴とする請求項1に記載の情報処理装置。
  3. 前記表示手段は、前記音声認識手段により生成された前記テキストデータに基づくテキストの表示をさらに制御する
    ことを特徴とする請求項1に記載の情報処理装置。
  4. 前記音声認識手段により生成された前記テキストデータに基づくテキストを印刷する印刷手段をさらに備える
    ことを特徴とする請求項1に記載の情報処理装置。
  5. 前記音声認識手段により生成された前記テキストデータを所定の記録媒体に記録する記録手段をさらに備える
    ことを特徴とする請求項1に記載の情報処理装置。
  6. AVデータから文字おこしして、記録位置と対応付けられたテキストのリストを作成する情報処理装置の情報処理方法において、
    前記AVデータを再生する再生ステップと、
    前記再生ステップの処理により再生された前記AVデータのうち、音声データに基づく音声を出力する出力ステップと、
    前記再生ステップの処理により再生された前記AVデータのうちの動画データに基づく画像の表示を制御する表示制御ステップと、
    前記出力ステップの処理により出力された前記音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識ステップと
    を含むことを特徴とする情報処理方法。
  7. AVデータから文字おこしして、記録位置と対応付けられたテキストのリストを作成する情報処理装置を制御するコンピュータに、
    前記AVデータの再生を制御する再生制御ステップと、
    前記再生制御ステップの処理により再生が制御された前記AVデータのうち、音声データに基づく音声の出力を制御する出力制御ステップと、
    前記再生制御ステップの処理により再生が制御された前記AVデータのうちの動画データに基づく画像の表示を制御する表示制御ステップと、
    前記出力ステップの処理により出力された前記音声に基づいて、ユーザが発話した音声を音声認識して、テキストデータを生成する音声認識ステップと
    を実行させることを特徴とするプログラム。
JP2003009866A 2003-01-17 2003-01-17 情報処理装置および方法、並びにプログラム Pending JP2004222169A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003009866A JP2004222169A (ja) 2003-01-17 2003-01-17 情報処理装置および方法、並びにプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003009866A JP2004222169A (ja) 2003-01-17 2003-01-17 情報処理装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JP2004222169A true JP2004222169A (ja) 2004-08-05

Family

ID=32899229

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003009866A Pending JP2004222169A (ja) 2003-01-17 2003-01-17 情報処理装置および方法、並びにプログラム

Country Status (1)

Country Link
JP (1) JP2004222169A (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177791A2 (en) * 2011-06-20 2012-12-27 Tandemseven, Inc. System and method for building and managing user experience for computer software interfaces
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012177791A2 (en) * 2011-06-20 2012-12-27 Tandemseven, Inc. System and method for building and managing user experience for computer software interfaces
WO2012177791A3 (en) * 2011-06-20 2013-04-18 Tandemseven, Inc. System and method for building and managing user experience for computer software interfaces
US9606694B2 (en) 2011-06-20 2017-03-28 Tandemseven, Inc. System and method for building and managing user experience for computer software interfaces
US10969951B2 (en) 2011-06-20 2021-04-06 Genpact Luxembourg S.à r.l II System and method for building and managing user experience for computer software interfaces
US11836338B2 (en) 2011-06-20 2023-12-05 Genpact Luxembourg S.à r.l. II System and method for building and managing user experience for computer software interfaces
WO2019142419A1 (ja) * 2018-01-22 2019-07-25 ソニー株式会社 情報処理装置および情報処理方法

Similar Documents

Publication Publication Date Title
JP4599244B2 (ja) 動画データから字幕を作成する装置及び方法、プログラム、並びに記憶媒体
KR101057559B1 (ko) 정보 기록 장치
CN1738440B (zh) 用于处理信息的设备,方法
US20090204399A1 (en) Speech data summarizing and reproducing apparatus, speech data summarizing and reproducing method, and speech data summarizing and reproducing program
US9767825B2 (en) Automatic rate control based on user identities
JP2008205745A (ja) 映像再生装置および方法
US20010046096A1 (en) Redactable recording apparatus
JP2007101945A (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2006339817A (ja) 情報処理装置およびその表示方法
JP2005094391A (ja) データ編集記録装置、データ編集記録方法、並びに、データ編集記録プログラムおよびそれを記録した記録媒体
JP2004222169A (ja) 情報処理装置および方法、並びにプログラム
JP2004222167A (ja) 情報処理装置および方法、並びにプログラム
EP1850344A1 (en) Image display device and method for editing a program
JP4273354B2 (ja) ディジタルテレビジョン受信機
JP2004222166A (ja) 情報処理装置および方法、並びにプログラム
JP2004222168A (ja) 情報処理装置および方法、並びにプログラム
JP4599630B2 (ja) 音声付き映像データ処理装置、音声付き映像データ処理方法及び音声付き映像データ処理用プログラム
JP2002084505A (ja) 映像閲覧時間短縮装置及び方法
JP2008141383A (ja) 映像編集装置、映像編集システムおよび映像編集方法
JP2007251867A (ja) デジタル放送受信装置およびデジタル情報受信装置、再生方法
JP3852383B2 (ja) ビデオ再生装置
US20230064035A1 (en) Text-Based Video Re-take System and Methods
KR20030038852A (ko) 정지 화면의 캡쳐를 이용한 북 마크 정보의 기록/표시장치 및 그 방법
JP2005341138A (ja) 映像要約方法及びプログラム及びそのプログラムを格納した記憶媒体
JP2004336606A (ja) 字幕制作システム

Legal Events

Date Code Title Description
RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20050623

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20050624