JP4741406B2 - ノンリニア編集装置およびそのプログラム - Google Patents

ノンリニア編集装置およびそのプログラム Download PDF

Info

Publication number
JP4741406B2
JP4741406B2 JP2006120126A JP2006120126A JP4741406B2 JP 4741406 B2 JP4741406 B2 JP 4741406B2 JP 2006120126 A JP2006120126 A JP 2006120126A JP 2006120126 A JP2006120126 A JP 2006120126A JP 4741406 B2 JP4741406 B2 JP 4741406B2
Authority
JP
Japan
Prior art keywords
editing
video
text
data
text data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2006120126A
Other languages
English (en)
Other versions
JP2007295218A (ja
Inventor
昌巳 藤田
章 中村
康之 近藤
智保 杉浦
正啓 柴田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Japan Broadcasting Corp
Original Assignee
Japan Broadcasting Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Japan Broadcasting Corp filed Critical Japan Broadcasting Corp
Priority to JP2006120126A priority Critical patent/JP4741406B2/ja
Publication of JP2007295218A publication Critical patent/JP2007295218A/ja
Application granted granted Critical
Publication of JP4741406B2 publication Critical patent/JP4741406B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

本発明は、テキストデータに連動させて映像や音声を編集するための編集データを生成するノンリニア編集装置およびそのプログラムに関する。
近年、映像や音声の編集は、映像等を記録したテープを再生し、所望の箇所を他のテープにコピーするリニア編集から、映像等を、一旦、ハードディスク等の記憶装置にデジタルデータとして書き込み、コンピュータによって編集するノンリニア編集へと移行している。
このノンリニア編集を行うノンリニア編集システムは、記憶装置に記憶してある映像等を、コンピュータ端末のGUI(Graphical User Interface)上で、操作者が「コピー」、「カット」、「ペースト」等の操作を行うことで、映像等の開始点・終了点からなる編集データを作成する。そして、ノンリニア編集システムは、編集した映像等を再生する際には、この編集データに基づいて、記憶装置から所望の開始点・終了点間の映像等を読み出して出力する。これによって、ノンリニア編集は、リニア編集に比べ、編集にかかる時間を削減することができる。
しかし、ノンリニア編集であっても、編集段階や、編集内容を確認する段階においては、操作者が映像等を再生する必要があるため、編集に多大な時間を要しているのが現状である。
そこで、テキストデータであるセンテンス(文章)と、映像のフレームとを対応付けておき、テキストを編集することで、それに対応する映像の編集を行う技術が開示されている(特許文献1参照)。この技術は、テキストデータであるセンテンスと、そのセンテンスに対応する映像の開始フレーム番号および終了フレーム番号とを、予め対応付けておき、センテンスを選択したり、センテンスの順序を換えたりすることで、映像のアクセス順序を任意に変更することを可能にしたものである。
これによって、操作者は、情報量が多く編集が困難な映像自体を編集することがなく、情報量の少ないテキストデータを編集することで、簡易に映像の編集を行うことができる。
特開平9−237486号公報(段落0086〜0089、図5)
しかし、前記した従来の技術によれば、予めテキストデータであるセンテンスと映像のフレームとを対応付けておく必要があるため、その対応付けのための入力作業に多くの時間を要してしまうという問題があった。
また、従来の技術では、1つのセンテンスに複数の映像のフレームが対応付けられるため、映像の編集単位がセンテンス単位となり、細かい映像の編集を行うことができないという問題があった。
本発明は、以上のような課題を解決するためになされたものであり、映像や音声と、テキストデータとを、人手を介さず対応付けるとともに、テキストデータの文字単位の編集に連動させて、映像や音声を編集するための編集データを生成することが可能なテキスト連動型のノンリニア編集装置およびそのプログラムを提供することを目的とする。
本発明は、前記目的を達成するために創案されたものであり、まず、請求項1に記載のノンリニア編集装置は、時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するノンリニア編集装置であって、テキスト対応付け手段と、表示手段と、テキスト編集手段と、編集データ生成手段と、を備える構成とした。
かかる構成において、ノンリニア編集装置は、テキスト対応付け手段によって、映像に対応する時間情報が付加された音声を音声認識して、その時間情報に対応付けたテキストデータを生成する。これによって、テキストデータと、映像や音声とは、時間情報(タイムコード)を介して対応付けられることになる。このとき、テキストデータは、少なくとも1文字単位でタイムコードに対応付けることが可能である。
また、ノンリニア編集装置は、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。これによって、映像に対応する音声は、映像の表示(再生)に連動して、テキストデータとして表示されることになる。
そして、ノンリニア編集装置は、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。このとき、テキストデータに対する編集は、そのまま時間情報で対応付けられた映像や音声の編集内容に相当することになる。そして、ノンリニア編集装置は、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。
なお、テキストデータと映像とは、時間情報で対応付けられているため、映像を編集することで、テキストデータを編集することも可能である。
また、請求項2に記載のノンリニア編集装置は、請求項1に記載のノンリニア編集装置において、前記テキスト対応付け手段が、音声認識により認識された単語の切れ目ごとに前記時間情報を対応付けることで前記テキストデータを生成し、前記テキスト編集手段が、前記単語単位で前記テキストデータを編集する構成とした。
かかる構成において、ノンリニア編集装置は、テキスト対応付け手段が、音声認識により、音声をテキストデータに変換する際に、音声認識結果である単語の切れ目ごとに時間情報を付加したテキストデータを生成する。
そして、ノンリニア編集装置は、テキスト編集手段によって、単語単位でテキストデータを編集する。このように、編集の最小単位を単語単位とすることで、音声として意味を持たない単語の途中で音声を編集することがなくなる。
また、請求項3に記載のノンリニア編集装置は、時間情報が付加された映像に基づいて、前記映像を編集するための編集データを生成するノンリニア編集装置であって、テキストデータ入力手段と、テキスト対応付け手段と、表示手段と、テキスト編集手段と、編集データ生成手段と、を備える構成とした。
かかる構成において、ノンリニア編集装置は、テキストデータ入力手段によって、外部から映像に対応するテキストデータを入力する。このテキストデータは、予め映像に対応する音声を電子化した原稿等である。
そして、ノンリニア編集装置は、テキスト対応付け手段によって、テキストデータ入力手段で入力されたテキストデータに、操作者の指示に基づいて、単語の切れ目ごとに映像に付加された時間情報を対応付ける。
また、ノンリニア編集装置は、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。
そして、ノンリニア編集装置は、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。そして、ノンリニア編集装置は、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。
さらに、請求項4に記載のノンリニア編集装置は、請求項1から請求項3のいずれか一項に記載のノンリニア編集装置において、前記編集データ生成手段が、前記テキストデータ内に固有の制御文字により識別された編集の開始点および終了点を記述されることにより、前記開始点および終了点を認識し、当該開始点および終了点に対応する時間情報に基づいて、前記編集データを生成する構成とした。
かかる構成において、ノンリニア編集装置は、テキスト編集手段において、テキストデータ内に編集の開始点(イン点)および終了点(アウト点)を示す固有の制御文字を記述されることで、テキストデータに対応付けられた時間情報から、開始点および終了点の時間を認識することができる。
そして、編集データ生成手段が、その開始点および終了点の時間を映像や音声のカット点とした編集データを生成する。
さらに、請求項に記載のノンリニア編集装置は、請求項1から請求項のいずれか一項に記載のノンリニア編集装置において、前記映像を編集する映像編集手段を備え、前記テキスト編集手段が、前記映像編集手段で編集された映像に対応する時間情報に基づいて、前記テキストデータおよび当該テキストデータに対応付けられた時間情報を編集する構成とした。
かかる構成において、ノンリニア編集装置は、映像編集手段によって、映像を編集することで、テキスト編集手段が、映像に対応付けられた時間情報に基づいて、テキストデータを編集することができる。
また、請求項に記載のノンリニア編集プログラムは、時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するために、コンピュータを、テキスト対応付け手段、表示手段、テキスト編集手段、編集データ生成手段、として機能させる構成とした。
かかる構成において、ノンリニア編集プログラムは、テキスト対応付け手段によって、映像に対応する時間情報が付加された音声を音声認識して、その時間情報に対応付けたテキストデータを生成する。これによって、テキストデータと、映像や音声とは、時間情報(タイムコード)を介して対応付けられることになる。
また、ノンリニア編集プログラムは、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。これによって、映像に対応する音声は、映像の表示(再生)に連動して、テキストデータとして表示されることになる。
そして、ノンリニア編集プログラムは、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。
そして、ノンリニア編集プログラムは、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。
本発明は、以下に示す優れた効果を奏するものである。
請求項1、7に記載の発明によれば、映像や音声とテキストデータとを、人手を介さず対応付けるとともに、テキストデータの任意の位置で映像や音声を編集することが可能になる。これによって、映像や音声を視聴することなく、文字によって、編集結果を確認することができるため、映像や音声の編集時間を短くすることができる。
請求項2に記載の発明によれば、単語単位で編集を行うため、音声として意味を持たない単語の途中で音声を編集することがなくなり、編集操作の効率性を高めることができる。
請求項3に記載の発明によれば、テキストデータの任意の位置で映像を編集することが可能になる。これによって、編集結果を文字で確認することができるため、映像の編集時間を短くすることができる。
請求項4に記載の発明によれば、テキストデータに固有の文字を挿入するだけで、映像や音声の編集の開始点および終了点を設定することができ、映像や音声を再生して開始点および終了点を設定する場合に比べて、短時間で編集作業を行うことが可能になる。
請求項5に記載の発明によれば、テキストデータの一連の編集作業において、文字スーパーを挿入する編集データを生成することができる。これによって、映像を再生して文字スーパーを挿入する箇所を探索する必要がないため、短時間で文字スーパーを設定した編集データを生成することができる。
請求項6に記載の発明によれば、映像とテキストデータとを時間情報で対応付けているため、従来のように映像を編集することで、編集データを生成するユーザインタフェースと、テキストデータを編集することで、編集データを生成するユーザインタフェースとを共存させることができ、操作者の利便性を高めることができる。
以下、本発明の実施の形態について図面を参照して説明する。
[ノンリニア編集装置の概要]
最初に、図1を参照して、本発明に係るノンリニア編集装置について、その概要を説明する。図1は、本発明に係るノンリニア編集装置の概要を説明するための図であって、ノンリニア編集装置が表示する表示画面を示している。
ノンリニア編集装置1は、映像に対応したタイムコード(時間情報)が付加された音声に基づいて、映像や音声を編集するための編集データを生成するものである。
このノンリニア編集装置1は、タイムコードで対応付けられた映像および音声を入力し、入力された音声を音声認識したテキストデータを表示画面Dのテキスト表示領域Tに表示する。また、ノンリニア編集装置1は、入力された映像を表示画面Dの映像表示領域Mに表示する。
そして、操作者が、テキスト表示領域Tに表示されているテキストデータを編集することで、ノンリニア編集装置1は、テキストデータの編集に連動して映像や音声を編集するための編集データを生成する。
このように、ノンリニア編集装置1は、テキストデータと、映像および音声とを同一のタイムコードで対応付けるため、ノンリニア編集を、テキストデータの編集により行うことを可能にしている。
以下、本発明に係るノンリニア編集装置の構成および動作について説明を行う。
≪第1実施形態≫
[ノンリニア編集装置の構成]
まず、図2を参照して、本発明の第1実施形態に係るノンリニア編集装置の構成について説明する。図2は、本発明の第1実施形態に係るノンリニア編集装置の構成を示すブロック図である。
図2に示すように、ノンリニア編集装置1は、時間情報が付加された映像および音声に基づいて、当該映像および音声を編集するための編集データを生成するものである。
ここでは、ノンリニア編集装置1は、制御手段10と、記憶手段20と、入力手段30と、編集手段40と、表示手段50と、出力手段60とを備えている。
制御手段10は、ノンリニア編集装置1全体を制御するものである。この制御手段10は、図示を省略したメニュー画面等を画面上に表示し、操作者が選択した動作を実行する。ここでは、制御手段10は、入力手段30、編集手段40、表示手段50および出力手段60を制御する。そして、制御手段10は、編集対象の映像・音声を入力する際は、入力手段30を動作させ、編集作業を行う際は、編集手段40や表示手段50を動作させ、編集データ等の編集結果を出力する際は、出力手段60を動作させる。
記憶手段20は、外部から入力された映像・音声、ノンリニア編集装置1において使用する各種データ、あるいは編集結果を記憶するものである。ここでは、記憶手段20は、音声認識用データ記憶手段21と、編集データ記憶手段22とを備えている。
音声認識用データ記憶手段21は、後記するテキスト対応付け手段32の音声認識手段321において使用される言語モデル、音響モデル等の音声認識に用いる各種データを記憶しておくものであって、ハードディスク等の一般的な記憶装置である。
言語モデルは、大量の音声データから学習した出力系列(単語、形態素、音素等)の出現頻度や接続確率等をモデル化したものである。この言語モデルには、例えば、一般的な「Nグラム言語モデル」を用いることができる。
音響モデルは、大量の音声データから予め学習した音素ごとの特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデルは、単一の音響モデルを用いてもよいし、音響の種別(例えば、人物別)ごとに複数のモデルを用いてもよい。
編集データ記憶手段22は、編集対象となる映像、音声の素材データや、編集結果を記憶するものであって、ハードディスク等の一般的な記憶装置である。また、編集データ記憶手段22に記憶される映像および音声には、タイムコードが付加されているものとする。なお、音声に付加されているタイムコードは、「時:分:秒:映像フレーム番号」として、映像のフレーム(映像フレーム)と対応付けられているものとする。
ここでは、記憶手段20を、音声認識用データ記憶手段21と、編集データ記憶手段22とを別のハードディスク等によって構成しているが、同一のハードディスク等で構成してもよい。
入力手段30は、制御手段10からの制御に基づいて、映像・音声を入力し、タイムコードに対応したテキストデータを生成するものである。ここでは、入力手段30は、映像音声入力手段31と、テキスト対応付け手段32とを備えている。
映像音声入力手段31は、外部から、編集対象となる映像および音声を入力するものである。なお、映像音声入力手段31は、入力された映像および音声を編集データ記憶手段22に記憶する。
テキスト対応付け手段32は、音声を音声認識し、タイムコードに対応したテキストデータを生成するものである。ここでは、テキスト対応付け手段32は、音声認識手段321で構成されている。
音声認識手段321は、音声をテキストデータに変換する一般的な音声認識の機能に加え、認識結果であるテキストデータに映像・音声のタイムコードを対応付けて付加するものである。なお、音声認識手段321は、音声認識用データ記憶手段21に記憶されている言語モデルや音響モデルを用いて、音声認識を行う。ここでは、音声認識手段321は、分析手段321aと、類似度算出手段321bと、探索手段321cとを備えている。
分析手段321aは、音声の音声波形に窓関数(ハミング窓等)をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出するものである。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数(MFCC:Mel Frequency Cepstrum Coefficient)、LPC(Linear Predictive Cording)係数、対数パワー等、一般的な音声特徴量を用いることができる。なお、分析手段321aは、特徴量を抽出した時点における映像・音声に付加されているタイムコードを、当該特徴量に付加することとする。
類似度算出手段321bは、分析手段321aで分析され、時系列に入力される特徴量と、音声認識用データ記憶手段21に記憶されている音響モデルでモデル化されている音素との類似度(確率値)を算出するものである。なお、類似度算出手段321bは、特徴量に付加されているタイムコードを、音素および類似度(確率値)とともに探索手段321cに出力する。
探索手段321cは、音声認識用データ記憶手段21に記憶されている言語モデルから、接続される出力系列の候補を探索し、確率値が最大となる出力系列を入力音声に対する認識結果(テキストデータ)として出力するものである。ここでは、探索手段321cは、認識結果であるテキストデータを編集データ記憶手段22に記憶する。なお、探索手段321cは、テキストデータを逐次出力する際に、分析手段321aで付加されたタイムコードに基づいて、単語の切れ目ごとにタイムコードを付加することとする。
このように音声認識手段321を構成することで、音声認識されたテキストデータは、図3に示すように、各単語に映像のフレームごとに対応したタイムコードが付加されることになる。このテキストデータは、表示手段50によって、図示を省略した表示装置に出力される。
編集手段40は、制御手段10からの制御に基づいて、編集データ記憶手段22に記憶されている映像および音声と、テキストデータとを連動させて編集することで、編集データを生成するものである。なお、編集データとは、編集対象の映像や音声において、少なくとも再編成用に抽出するための区間を示す、タイムコードの開始点および終了点の1組以上のデータである。ここでは、編集手段40は、テキスト編集手段41と、映像編集手段42と、音声編集手段43と、編集データ生成手段44とを備えている。
テキスト編集手段41は、編集データ記憶手段22に記憶されているテキストデータを編集するものである。ここでは、テキスト編集手段41は、表示手段50によって表示されたテキストデータに対して、操作者が図示を省略したマウス、キーボード等の入力装置を介して編集操作を行うことで、テキストデータの編集を行う。
すなわち、テキスト編集手段41は、操作者が「コピー」、「カット」、「ペースト」の操作を行うことで、テキストデータの部分入れ替えや、削除等を行う。なお、テキスト編集手段41は、テキストデータの編集を単語単位で行うこととする。これによって、テキストデータに対応付けられたタイムコード単位で、編集が行われることになる。
なお、テキスト編集手段41は、編集箇所を示すカーソルをテキストデータと同時に画面上に表示し、操作者がキーボード等によって、カーソルを移動させたときに、そのカーソル位置に対応する文字に対応付けられたタイムコードを、映像編集手段42に通知することで、対応するシーン(フレーム)を表示させる。
また、テキスト編集手段41は、操作者から、テキストデータに予め定めた制御文字等を入力されることで、テキストデータに編集用の情報を設定する。このテキスト編集手段41におけるテキストデータの編集結果は、編集データ生成手段44に出力される。
ここで、図4を参照(適宜図2参照)して、編集用の情報となる制御文字について説明する。図4は、制御文字を説明するための説明図であって、ノンリニア編集装置の表示画面に表示されたテキストデータを示している。
例えば、図4に示したように、テキストデータの任意の文字列を、予め定めた固有の制御文字(編集識別文字、例えば“/”)で囲むことで、テキストデータ内に、映像や音声を編成するための編集点(開始点〔イン点〕、終了点〔アウト点〕)を設定する。
このとき、編集点において、さらに、演出効果を特定する予め定めた固有の制御文字(効果識別文字)を付加することとしてもよい。すなわち、映像の演出効果として、「フェード」、「ワイプ」、「ディゾルブ」等を識別する文字と、その時間を付加する。例えば、「フェード」を特定するための文字(例えば、“FO”)と、その時間を示す数字(例えば、“3”)とを、効果識別文字(例えば“《”、“》”)で囲むことで、テキストデータ内に、編集点における映像の演出効果を文字列(例えば、“/《FO3》”)として設定する。図4の例では、終了点において、3秒でフェードアウトすることを示している。
なお、「ワイプ」、「ディゾルブ」等については、他の制御文字を予め定めておくことで、設定を行うことが可能である。
また、予め定めた固有の制御文字(文字スーパー区間識別文字、文字スーパー識別文字)と任意の文字列(文字スーパー文字列)を、テキストデータに挿入することで、映像内に挿入する文字スーパーと、その文字スーパーを表示する文字スーパー開始点および文字スーパー終了点とを設定することとしてもよい。例えば、テキストデータの任意の文字列を、文字スーパー区間識別文字(例えば“〔”、“〕”)で囲むことで、テキストデータ内に、文字スーパーを表示する時間区間を設定する。さらに、その区間内に、文字スーパー識別文字(例えば“『”、“』”で挟まれた文字列(文字スーパー文字列)を挿入することで、テキストデータ内に、文字スーパーの文字列を設定する。
また、予め定めた固有の制御文字(無音指定文字、例えば、“_”)を設定することで、無音区間を設定することとしてもよい。この場合、無音指定文字の1文字分が、予め定めた時間長の無音時間とする。
また、例えば、テキストデータの任意の文字列を領域指定(映像・音声分離指定)することで、この領域の区間においては、映像と音声とを分離させ、編集時には映像のみを使用することを設定することとしてもよい。
このように、テキスト編集手段41では、予め定めた制御文字等をテキストデータに挿入することで、種々の編集内容を設定することができる。なお、図4に示した制御文字等は、一例であって、他の文字を使用することも可能である。また、図4で説明した編集用の情報以外に、予め定めた制御文字(コメント指定文字、例えば、“(”、“)”)内に任意の文字列を挿入することで、映像や音声とは無関係なコメントを設定することとしてもよい。これによって、操作者は、当該コメントを「メモ」として使用することができ、編集を行う際の参考情報として利用することができる。
図2に戻って、テキスト編集手段41について、説明を続ける。
このテキスト編集手段41は、テキストデータを編集する際の補助を行うために、さらに、時間表示手段411と、キーワード検索手段412とを備えている。
時間表示手段411は、テキストデータに対応付けられたタイムコードを視覚化するものである。例えば、時間表示手段411は、図示を省略したマウス等の入力装置を介してテキストデータの任意の位置を指示されることで、当該位置に対応するタイムコードを表示する。なお、このとき、時間表示手段411は、タイムコードとして、編集対象となる映像、音声の素材データのタイムコードと、編集後の映像、音声に対応するタイムコードとを表示することとしてもよい。
また、時間表示手段411は、テキストデータの任意の文字列をマウス等によって、ドラッグされることで、そのドラッグ領域の文字列に対応する映像・音声の再生時間を、テキストデータに対応付けられたタイムコードから算出し、表示することとしてもよい。これによって、操作者は、テキストデータから編集後の映像・音声の時間を確認することができる。
キーワード検索手段412は、テキストデータ内から、任意の文字列(キーワード)を検索するものである。すなわち、キーワード検索手段412は、表示画面上にキーワードを入力する入力画面を表示し、操作者からキーワードを入力されることで、編集データ記憶手段22に記憶されているテキストデータから、キーワードを検索する。
これによって、操作者は、映像や音声を実際に再生して編集したい箇所を探索しなくても、キーワードを入力することで、編集したい箇所を探索することができる。
映像編集手段42は、編集データ記憶手段22に記憶されている映像を編集するものである。ここでは、映像編集手段42は、表示手段50によって表示された映像に対して、操作者が図示を省略したジョグ・シャトルコントローラ等の操作装置を介して編集操作を行うことで、映像の編集を行う。例えば、映像編集手段42は、操作者によって、ジョグ・シャトルコントローラを介して、フレーム単位で映像を再生・停止させ、編集点(開始点、終了点)を設定する。あるいは、操作者によって、マウス等により表示画面上の操作ボタン等を押下されることで、映像の再生・停止、編集点の設定を行う。
このとき、映像編集手段42は、テキストデータに対して、編集点のタイムコードに対応する箇所に、編集識別文字(図4参照)を挿入する。これによって、映像によって、編集点を設定する場合であっても、その映像に連動して、テキストデータが編集されることになる。
なお、操作者が所望する映像のシーンを表示させる場合、タイムコードに対応付けたタイムライン上のカーソルを操作者が移動させることで、シーンを表示させることとしてもよい。
音声編集手段43は、編集データ記憶手段22に記憶されている音声を編集するものである。この音声編集手段43は、映像編集手段42によって編集された映像のタイムコードに対応付けて、音声の編集を行う。さらに、音声編集手段43は、テキスト編集手段41によって編集されたテキストデータのタイムコードによっても、音声の編集を行う。
編集データ生成手段44は、テキストデータに挿入されている編集用の制御文字等(図4参照)と、テキストデータに対応付けされているタイムコードとに基づいて、映像や音声を編集するための編集データを生成するものである。
すなわち、編集データ生成手段44は、図4で説明した各種の制御文字等を探索することで、各制御文字に対応する編集内容を編集データとして生成する。
例えば、編集データ生成手段44は、テキストデータにおいて、編集点(開始点、終了点)を示す編集識別文字を探索し、第1の編集識別文字の直後の単語に設定されているタイムコードを、開始点のタイムコードとする。また、編集データ生成手段44は、第2の編集識別文字の直後の単語に設定されているタイムコードの直前の映像のフレームに対応するタイムコードを、終了点のタイムコードとする。
さらに、編集データ生成手段44は、テキストデータに演出効果を特定する効果識別文字が含まれている場合、その効果識別文字が挿入されている位置に対応するタイムコードの時点から、指定された演出効果を行う旨のコードを編集コードに記述する。
また、編集データ生成手段44は、テキストデータに文字スーパー区間識別文字が含まれている場合は、第1の文字スーパー区間識別文字の直後の単語に設定されているタイムコードを、文字スーパー開始点のタイムコードとする。また、編集データ生成手段44は、第2の文字スーパー区間識別文字の直後の単語に設定されているタイムコードの直前の映像のフレームに対応するタイムコードを、文字スーパー終了点のタイムコードとする。そして、編集データ生成手段44は、文字スーパー区間識別文字間の文字スーパー識別文字で囲まれている文字列を文字スーパーの文字列とする。
また、編集データ生成手段44は、テキストデータに無音指定文字が含まれている場合は、その無音指定文字で示される無音区間だけは、映像を編集する旨の内容を編集データに記述する。
なお、生成された編集データは、編集データ記憶手段22に記憶される。
ここで、図5を参照して、編集データ生成手段44が生成する編集データの具体例について説明する。図5は、編集データ生成手段が生成する編集データのデータ構造図である。ここで、「番号」は、編集データのシリアル番号を示しており、編集データの先頭から順番に振られる連続番号である。
また、「編集対象」は、編集の対象を特定するための情報である。ここでは、編集対象が映像および音声の両方である場合を「VA」、映像のみである場合を「V」で示している。また、「編集内容」は、編集対象に対する編集の内容を特定する情報である。ここでは、編集点の開始点および終了点の映像を抽出(カット)する操作内容を「C」で示している。さらに、他の操作として、フェードアウトを「FO」で示している。また、開始点および終了点は、編集対象の開始および終了のタイムコードを示している。
また、編集データに文字スーパーの情報を付加するには、「番号015」に示すように、「編集対象」を映像「V」とし、「編集内容」を文字スーパーの付加を示す識別文字「S」に文字スーパーの文字列を付加した情報を記述し、文字スーパーの表示時間を開始点と終了点とに記述することとする。
このように、編集データ生成手段44は、操作者によって、編集されたテキストデータのみから、図5に示した編集データを生成することができる。
図2に戻って、ノンリニア編集装置1の構成について説明を続ける。
表示手段50は、図示を省略した表示装置に対して、少なくとも、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、タイムコードに対応付けてテキストデータと映像とを表示(出力)するものである。ここでは、表示手段50は、テキスト表示手段51と、映像・音声表示手段52と、編集時間軸表示手段53とを備えている。
テキスト表示手段51は、表示装置のテキスト表示領域に、テキストデータを表示するものである。なお、テキスト表示手段51は、映像・音声表示手段52で再生される映像のタイムコードに連動して、テキストデータを表示し、映像が再生されている間は、タイムコードに基づいて、テキストデータをスクロールして表示する。また、テキスト表示手段51は、現在の編集位置を示すテキストデータの位置にカーソルC(図1参照)を表示する。
映像・音声表示手段52は、表示装置の映像表示領域に、映像を表示するものである。さらに、映像・音声表示手段52は、図示を省略したスピーカ等の音声出力装置に対して、音声を出力する。なお、映像・音声表示手段52は、映像・音声を再生中は、タイムコードをテキスト表示手段51に対して通知するものとする。
また、映像・音声表示手段52は、映像を表示する以外に、映像を再生表示するための操作ボタンをアイコンとして表示する。例えば、図1に示すように、「巻き戻し」、「再生」、「早送り」、「停止」等の操作ボタンや、開始点、終了点を設定する設定ボタンを表示し、当該ボタンをマウス等で押下されることで、映像編集手段42が、映像の編集を行う。
また、映像・音声表示手段52は、映像のタイムコードに対応付けたタイムラインを表示し、現在表示している映像のタイムコードに対応するシーン(フレーム)に対応する時間軸にカーソルC(図1参照)を表示する。
編集時間軸表示手段53は、表示装置の編集時間軸表示領域に、編集対象となる映像および音声の素材データと、編集後の映像および音声、並びに、付加した文字スーパーと時間との関係を時間軸に沿って視覚化したタイムラインを表示するものである。この編集時間軸表示手段53は、編集データ記憶手段22に記憶されている映像、音声、編集データを参照して、映像および音声の全時間領域に対する、映像および音声の各開始点、終了点の時間軸上の位置を算出することで、図1に示すように、編集時間軸表示領域Lに、映像および音声のタイムラインを表示する。
また、編集時間軸表示手段53は、現在表示している映像のタイムコードに対応するシーン(フレーム)に対応する時間軸にカーソルC(図1参照)を表示することとする。
出力手段60は、映像・音声の編集結果である編集データ等を出力するものである。ここでは、出力手段60は、編集データ出力手段61と、テキストデータ出力手段62とを備えている。
編集データ出力手段61は、編集結果として編集データ記憶手段22に記憶されている編集データを出力するものである。この編集データは、映像・音声を実際に編集するためのデータとして使用される。
テキストデータ出力手段62は、編集結果として編集データ記憶手段22に記憶されているテキストデータを出力するものである。なお、このテキストデータは、タイムコードを含んだものであってもよいし、タイムコードを含まない文字列だけのデータであってもよい。これによって、操作者は、編集結果を映像や音声以外に、テキストデータで確認することも可能になり、編集の確認作業を簡易化することが可能になる。
なお、このテキストデータは、映像や音声に対するメタデータや字幕データとして、他の用途として使用することも可能である。
以上説明したようにノンリニア編集装置1を構成することで、テキストデータに連動させて、映像や音声を編集するための編集データを生成することができる。これによって、映像や音声を視聴しながら時間をかけて行っていた編集作業を、テキストデータを編集するという簡易な作業で行うことが可能になる。
なお、ノンリニア編集装置1は、一般的なコンピュータを前記した各手段として機能させるノンリニア編集プログラムによって動作させることができる。
[ノンリニア編集装置の動作]
次に、図6〜図8を参照して、ノンリニア編集装置1の動作について説明する。なお、ここでは、ノンリニア編集装置1の動作を、映像・音声の入力動作と、編集動作と、出力動作の3つに分けて説明する。図6は、ノンリニア編集装置の映像・音声の入力動作を示すフローチャートである。図7は、ノンリニア編集装置の編集動作を示すフローチャートである。図8は、ノンリニア編集装置の出力動作を示すフローチャートである。
(入力動作)
最初に、図6を参照(適宜図2参照)して、ノンリニア編集装置1の入力動作について説明する。
まず、ノンリニア編集装置1は、入力手段30の映像音声入力手段31によって、外部から、編集対象となる映像および音声を入力し、編集データ記憶手段22に記憶する(ステップS1)。
その後、ノンリニア編集装置1は、テキスト対応付け手段32の音声認識手段321によって、音声を、映像・音声のタイムコードに対応付けたテキストデータに変換する。
すなわち、ノンリニア編集装置1は、分析手段321aによって、編集データ記憶手段22に記憶されている音声の音声波形に窓関数をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで特徴量を抽出する(ステップS2)。さらに、分析手段321aは、特徴量を抽出した時点における音声に付加されているタイムコードを、当該特徴量に付加することで、特徴量をタイムコードとを対応付ける(ステップS3)。
そして、ノンリニア編集装置1は、類似度算出手段321bによって、ステップS3で抽出された特徴量と、音声認識用データ記憶手段21に記憶されている音響モデルでモデル化されている音素との類似度(確率値)を算出する(ステップS4)。
さらに、ノンリニア編集装置1は、探索手段321cによって、音声認識用データ記憶手段21に記憶されている言語モデルから、接続される出力系列の候補を探索し、確率値が最大となる出力系列を認識結果(テキストデータ)とするとともに、ステップS3で対応付けられたタイムコードに基づいて、単語の切れ目ごとにタイムコードを対応付ける(ステップS5)。
そして、ノンリニア編集装置1は、テキスト対応付け手段32によって、単語の切れ目ごとにタイムコードが付加されたテキストデータを、編集データ記憶手段22に記憶する(ステップS6)。
以上の動作によって、ノンリニア編集装置1は、映像・音声のタイムコードに単語ごとに対応したテキストデータを生成する。
(編集動作)
次に、図7を参照(適宜図1、図2参照)して、ノンリニア編集装置1の編集動作について説明する。なお、ここでは、操作者が、テキスト表示領域Tにおいて、テキストデータを編集する動作について説明する。
まず、ノンリニア編集装置1は、テキスト編集手段41によって、図示を省略したマウス、キーボード等の入力装置を介して入力される操作者の操作を解析する(ステップS11)。
ここで、操作者が行った操作が、テキスト表示領域TのカーソルCを移動させる操作である場合(ステップS12でYes)、ノンリニア編集装置1は、テキスト表示領域TのカーソルCの移動に伴って、映像・音声の再生位置を移動させる(ステップS13)。
このとき、ノンリニア編集装置1は、テキスト編集手段41によって、移動したカーソルCの位置に対応するテキストデータのタイムコードを、編集データ記憶手段22から読み出し、映像編集手段42が、映像表示領域Mに表示させる映像を当該タイムコードに対応するシーンに移動させる。また、編集時間軸表示手段53が、編集時間軸表示領域Lに表示するカーソルCを、当該タイムコードに対応するシーン(フレーム)の位置に移動させる。
また、操作者が行った操作が、テキスト表示領域Tのテキストデータの編集操作である場合、すなわち、「コピー」、「カット」、「ペースト」や、編集点(開始点、終了点)の設定である場合(ステップS14でYes)、ノンリニア編集装置1は、テキストデータの部分入れ替えや、削除等に対応して、映像・音声の編集を行う(ステップS15)。
このとき、ノンリニア編集装置1は、テキスト編集手段41によって、編集されたテキストデータのタイムコードを編集データ記憶手段22から読み出し、映像編集手段42が、テキストデータのタイムコードに対応して映像を編集したのちに、映像表示領域Mに編集後の映像を表示させる。また、音声編集手段43が、テキストデータのタイムコードに対応して音声を編集する。そして、編集データ生成手段44が、テキストデータ内に挿入されている編集識別文字が挿入されている位置に対応するタイムコードを、編集点(開始点、終了点)として、編集データに付加する。
また、操作者が行った操作が、トランジッションの変更を行う操作である場合、すなわち、テキストデータに、「フェード」、「ワイプ」、「ディゾルブ」等を識別する文字と時間を設定する操作である場合(ステップS16でYes)、ノンリニア編集装置1は、トランジッションの種類と時間を編集データに付加する(ステップS17)。
このとき、ノンリニア編集装置1は、テキスト編集手段41において、テキストデータに映像の演出効果を示す文字(効果識別文字)が入力されたとき、編集データ生成手段44によって、その効果識別文字が挿入されている位置に対応するタイムコードの時点から、指定された演出効果を行う旨のコードを編集コードに付加する。
また、操作者が行った操作が、文字スーパーの追加、すなわち、テキストデータに、文字スーパー識別文字で挟まれた文字列(文字スーパー文字列)を挿入する操作である場合(ステップS18でYes)、ノンリニア編集装置1は、文字スーパーの文字列とその表示時刻とを編集データに付加する(ステップS19)。
このとき、ノンリニア編集装置1は、テキスト編集手段41において、テキストデータに文字スーパー識別文字で挟まれた文字スーパー文字列を入力されたとき、編集データ生成手段44によって、文字スーパー識別文字が挿入されている2箇所の位置に対応するタイムコードで示される時間区間に文字スーパー文字列を表示する旨のコードを編集コードに付加する。
また、操作者が行った操作が、テキストデータの時間情報を表示する操作である場合(ステップS20でYes)、ノンリニア編集装置1は、タイムコードに基づいて、対応する時間を表示画面に表示する(ステップS21)。
このとき、ノンリニア編集装置1は、時間表示手段411によって、マウス等の入力装置を介してテキストデータの任意の位置を指示されることで、当該位置に対応するタイムコードを表示画面に表示する。あるいは、時間表示手段411は、テキストデータの任意の文字列をマウス等によってドラッグされることで、そのドラッグ領域の文字列に対応する時間を、テキストデータに対応付けられたタイムコードから算出し、その算出時間、すなわち再生時間を表示画面に表示する。
また、操作者が行った操作が、キーワードを検索する操作である場合(ステップS22でYes)、ノンリニア編集装置1は、テキストデータ内でキーワードを検索する(ステップS23)。
このとき、ノンリニア編集装置1は、キーワード検索手段412によって、編集データ記憶手段22に記憶されているテキストデータから、キーワードを検索する。
ここで、キーワードの検索に成功した場合(ステップS24でYes)、キーワード検索手段412は、カーソルCの移動位置を、検索結果であるキーワードの位置に設定し、ステップS12に戻ることで、キーワードが表示画面Dのテキスト表示領域T内に表示される。
そして、ノンリニア編集装置1は、編集操作の終了が指示されたか否かを判定し(ステップS25)、終了が指示されていない場合(ステップS25でNo)、ステップS11に戻って動作を継続する。一方、終了が指示された場合(ステップS24でYes)は、編集を終了する。なお、編集操作の終了指示は、制御手段10が図示を省略したメニュー画面を表示し、操作者が編集終了を選択することにより行うこととする。
以上の動作によって、ノンリニア編集装置1は、テキストデータに連動させて編集データを生成することができる。
なお、ここでは、テキストデータに連動させて、編集データを生成する動作について説明したが、タイムコードによって、映像・音声とテキストデータとが対応付けられているため、映像・音声を編集することで、それにあわせてテキストデータを編集し、編集データを生成する。
(出力動作)
次に、図8を参照(適宜図2参照)して、ノンリニア編集装置1の出力動作について説明する。なお、ここでは、制御手段10が図示を省略したメニュー画面を表示し、操作者が、所望するデータを選択することとする。
まず、ノンリニア編集装置1は、出力手段60によって、操作者が選択した指示内容を解析する(ステップS31)。
ここで、操作者が選択した指示内容が、編集データの出力である場合(ステップS32でYes)、ノンリニア編集装置1は、編集データ出力手段61によって、編集データ記憶手段22に記憶されている編集データを読み出し、出力する(ステップS33)。
また、操作者が選択した指示内容が、時間情報が付加されていないテキストデータの出力である場合(ステップS34でYes)、ノンリニア編集装置1は、テキストデータ出力手段62によって、編集データ記憶手段22に記憶されているテキストデータから、文字情報のみを抽出し、出力する(ステップS35)。
また、操作者が選択した指示内容が、時間情報が付加されたテキストデータの出力である場合(ステップS36でYes)、ノンリニア編集装置1は、テキストデータ出力手段62によって、編集データ記憶手段22に記憶されているテキストデータをそのまま読み出し、出力する(ステップS37)。
そして、ノンリニア編集装置1は、出力動作の終了が指示されたか否かを判定し(ステップS38)、終了が指示されていない場合(ステップS38でNo)、ステップS31に戻って動作を継続する。一方、終了が指示された場合(ステップS38でYes)は、出力動作を終了する。なお、出力動作の終了指示は、制御手段10が図示を省略したメニュー画面を表示し、操作者が出力終了を選択することにより行うこととする。
以上の動作によって、ノンリニア編集装置1は、編集データ以外に、テキストデータを出力することができる。なお、このテキストデータの出力において、タイムコードを付加するか否かを選択可能とすることで、テキストデータを編集データの確認用として使用する以外に、メタデータや、字幕データとして使用することも可能になる。
以上、ノンリニア編集装置1の構成および動作について説明したが、本発明はこれに限定されるものではない。以下に、他のノンリニア編集装置の構成について説明する。
≪第2実施形態≫
図9を参照して、本発明の第2実施形態に係るノンリニア編集装置の構成について説明する。図9は、本発明の第2実施形態に係るノンリニア編集装置の構成を示すブロック図である。
図2で説明したノンリニア編集装置1は、映像・音声を入力し、音声認識を行う際に、タイムコードを付加したテキストデータを生成することとしたが、ノンリニア編集装置1Bは、音声認識によりテキストデータを生成した後に、タイムコードを設定する構成としている。
すなわち、ノンリニア編集装置1Bは、入力手段30Bが、図2で説明したノンリニア編集装置1の入力手段30と異なっており、他の構成は同一のものである。そこで、入力手段30B以外の構成については、図2で説明したノンリニア編集装置1と同一の符号を付し、説明を省略する。
入力手段30Bは、映像音声入力手段31と、テキスト対応付け手段32Bとを備えている。なお、映像音声入力手段31は、ノンリニア編集装置1(図2)の映像音声入力手段31と同一の構成であるため、説明を省略する。
テキスト対応付け手段32Bは、音声を音声認識することでテキストデータを生成し、そのテキストデータに対して、タイムコードを設定することで、映像・音声とテキストデータとを対応付けるものである。ここでは、テキスト対応付け手段32は、音声認識手段321Bと、時間割付手段322とで構成されている。
音声認識手段321Bは、音声をテキストデータに変換するものであって、音声認識用データ記憶手段21に記憶されている言語モデルや音響モデルを用いて、音声認識を行う。なお、音声認識手段321Bは、図2で説明した音声認識手段321のように、音声認識時にタイムコードをテキストデータに付加する機能を有さない一般的な音声認識手段である
時間割付手段322は、音声認識手段321Bで生成されたテキストデータにおいて、単語の切れ目ごとに時間情報(タイムコード)を設定するものである。ここでは、時間割付手段322は、テキストデータの単語単位で区分された指定位置と、その指定位置に割り付けるタイムコードとを入力されることで、テキストデータの指定位置にタイムコードを設定する。なお、時間割付手段322は、テキストデータ内に2箇所以上タイムコードを設定されることで、他の単語単位で区分された位置にタイムコードを設定することとする。
ここで、図10を参照(適宜図9参照)して、時間割付手段322がテキストデータにタイムコードを設定する動作について説明する。図10は、時間割付手段が行うタイムコード設定の動作を説明するための説明図である。
図10(a)は、音声認識手段321Bによって、音声認識された後のテキストデータの内容を示している。ここで、テキストデータは、単語ごとに区分(T1〜T5)されている。
ここで、時間割付手段322は、テキストデータの指定位置とタイムコードとを入力されることで、指定位置にタイムコードを設定する。図10の例では、図10(a)のテキストデータで「花」と「の」との間(T1)に、1箇所目のタイムコードが設定されることで、時間割付手段322は、図10(b)に示すように、T1の位置にタイムコード(TA)を付加する。
さらに、時間割付手段322は、テキストデータで「細胞」と「から」との間(T3)に、2箇所目のタイムコードが設定されることで、時間割付手段322は、図10(c)に示すように、T3の位置にタイムコード(TB)を付加する。
このとき、時間割付手段322は、T1およびT3に設定されたタイムコード(TAおよびTB)に基づいて、他の単語間の位置(T2、T4およびT5)に、タイムコード(TC、TDおよびTE)を付加(自動割付)する。例えば、時間割付手段322は、すでに設定されているタイムコード(TAおよびTB)を線形補間することにより、タイムコード(TC、TDおよびTE)を設定することとする。
この時間割付手段322が行う線形補間は、各単語の文字数を基準として、簡易にタイムコードを線形補間することとしてもよい。また、音声認識手段321Bによって、各単語の音素数が既知の場合は、各単語の音素数を基準に線形補間することとしてもよい。また、音声認識手段321Bによって、各単語の時間長が既知の場合は、その時間長を基準に線形補間することとしてもよい。
なお、時間割付手段322は、すでにタイムコードが設定されている位置に再度タイムコードが設定された場合は、タイムコードの再割付を行う。これによって、タイムコードの精度を高めることができる。
以上、ノンリニア編集装置1Bの構成と動作とについて説明したが、時間割付手段322を、図2で説明したノンリニア編集装置1に組み込んで、音声認識によりタイムコードを付加したテキストデータを生成するか、操作者から設定されるタイムコードをテキストデータに付加するかを、適宜切り換えて動作させる構成としてもよい。
≪第3実施形態≫
次に、図11を参照して、本発明の第3実施形態に係るノンリニア編集装置の構成について説明する。図11は、本発明の第3実施形態に係るノンリニア編集装置の構成を示すブロック図である。
ノンリニア編集装置1(図2参照)や、ノンリニア編集装置1B(図9参照)では、テキストデータを、入力された音声を音声認識することで生成することとしたが、予め電子化された原稿等を入力することとしてもよい。
すなわち、ノンリニア編集装置1Cは、入力手段30Cが、図2や図9で説明したノンリニア編集装置1,1Bの入力手段30,30Bと異なっており、他の構成は同一のものである。そこで、入力手段30C以外の構成については、図2や図9で説明したノンリニア編集装置1,1Bと同一の符号を付し、説明を省略する。
テキストデータ入力手段33は、外部から予め電子化された原稿等のテキストデータを入力するものである。なお、テキストデータ入力手段33は、入力されたテキストデータを編集データ記憶手段22に記憶する。
テキスト対応付け手段32Cは、テキストデータ入力手段33で入力されたテキストデータに対して、タイムコードを設定することで、映像とテキストデータとを対応付けるものである。ここでは、テキスト対応付け手段32Cは、時間割付手段322を備えている。なお、この時間割付手段322については、すでに図9で説明したものと同一であるため、説明を省略する。
このようにノンリニア編集装置1Cを構成することで、音声認識を行わない安価な構成とすることもできる。
本発明に係るノンリニア編集装置の概要を説明するための説明図である。 本発明の第1実施形態に係るノンリニア編集装置の構成を示すブロック図である。 タイムコードを付加したテキストデータの構造を示すデータ構造図である。 制御文字を説明するための説明図である。 編集データ生成手段が生成する編集データの一例を示す図である。 ノンリニア編集装置の映像・音声の入力動作を示すフローチャートである。 ノンリニア編集装置の編集動作を示すフローチャートである。 ノンリニア編集装置の出力動作を示すフローチャートである。 本発明の第2実施形態に係るノンリニア編集装置の構成を示すブロック図である。 時間割付手段が行うタイムコード設定の動作を説明するための説明図である。 本発明の第3実施形態に係るノンリニア編集装置の構成を示すブロック図である。
符号の説明
1、1B、1C ノンリニア編集装置
10 制御手段
20 記憶手段
30 入力手段
31 映像音声入力手段
32 テキスト対応付け手段
321 音声認識手段
33 テキストデータ入力手段
40 編集手段
41 テキスト編集手段
42 映像編集手段
43 音声編集手段
44 編集データ生成手段
50 表示手段
60 出力手段

Claims (6)

  1. 時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するノンリニア編集装置であって、
    前記音声を音声認識して、前記時間情報に対応付けたテキストデータを生成するテキスト対応付け手段と、
    前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段と、
    操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段と、
    このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記編集データを生成する編集データ生成手段と、を備え、
    前記編集データ生成手段は、
    前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集装置。
  2. 前記テキスト対応付け手段は、音声認識により認識された単語の切れ目ごとに前記時間情報を対応付けることで前記テキストデータを生成し、
    前記テキスト編集手段は、前記単語単位で前記テキストデータを編集することを特徴とする請求項1に記載のノンリニア編集装置。
  3. 時間情報が付加された映像に基づいて、前記映像を編集するための編集データを生成するノンリニア編集装置であって、
    前記映像に対応するテキストデータを入力するテキストデータ入力手段と、
    このテキストデータ入力手段で入力されたテキストデータに、操作者の指示に基づいて、単語の切れ目ごとに前記時間情報を対応付けるテキスト対応付け手段と、
    前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段と、
    前記操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段と、
    このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記編集データを生成する編集データ生成手段と、を備え
    前記編集データ生成手段は、
    前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集装置。
  4. 前記編集データ生成手段は、
    前記テキストデータ内に固有の制御文字により識別された編集の開始点および終了点を記述されることにより、前記開始点および終了点を認識し、当該開始点および終了点に対応する時間情報に基づいて、前記編集データを生成することを特徴とする請求項1から請求項3のいずれか一項に記載のノンリニア編集装置。
  5. 前記映像を編集する映像編集手段を備え、
    前記テキスト編集手段は、前記映像編集手段で編集された映像に対応する時間情報に基づいて、前記テキストデータおよび当該テキストデータに対応付けられた時間情報を編集することを特徴とする請求項1から請求項4のいずれか一項に記載のノンリニア編集装置。
  6. 時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するために、コンピュータを、
    前記音声を音声認識して、前記時間情報に対応付けたテキストデータを生成するテキスト対応付け手段、
    前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段、
    操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段、
    このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記映像を編集するための編集データを生成する編集データ生成手段、として機能させ、
    前記編集データ生成手段は、
    前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集プログラム。
JP2006120126A 2006-04-25 2006-04-25 ノンリニア編集装置およびそのプログラム Expired - Fee Related JP4741406B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2006120126A JP4741406B2 (ja) 2006-04-25 2006-04-25 ノンリニア編集装置およびそのプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2006120126A JP4741406B2 (ja) 2006-04-25 2006-04-25 ノンリニア編集装置およびそのプログラム

Publications (2)

Publication Number Publication Date
JP2007295218A JP2007295218A (ja) 2007-11-08
JP4741406B2 true JP4741406B2 (ja) 2011-08-03

Family

ID=38765397

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2006120126A Expired - Fee Related JP4741406B2 (ja) 2006-04-25 2006-04-25 ノンリニア編集装置およびそのプログラム

Country Status (1)

Country Link
JP (1) JP4741406B2 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2012150363A (ja) * 2011-01-20 2012-08-09 Kddi Corp メッセージ映像編集プログラムおよびメッセージ映像編集装置
KR101781861B1 (ko) * 2011-04-04 2017-09-26 엘지전자 주식회사 영상표시장치 및 이를 이용한 텍스트 디스플레이 방법
JPWO2014002716A1 (ja) * 2012-06-26 2016-05-30 ソニー株式会社 情報処理装置と情報処理方法およびプログラム
JP5982428B2 (ja) * 2014-06-10 2016-08-31 株式会社ランドスケイプ コンテンツ編集・再生方法
WO2018042959A1 (ja) * 2016-08-29 2018-03-08 京セラドキュメントソリューションズ株式会社 動画データ解析装置及び動画データ解析方法
JP6615952B1 (ja) * 2018-07-13 2019-12-04 株式会社ソケッツ テキスト表示用同期情報生成装置および方法
JP7424801B2 (ja) 2019-11-12 2024-01-30 株式会社Tbsテレビ テキストデータを用いた映像編集出力制御装置、テキストデータを用いた映像編集出力方法、及びプログラム
JP7179387B1 (ja) * 2022-03-18 2022-11-29 株式会社喋ラボ ハイライト動画生成システム、ハイライト動画生成方法、およびプログラム
CN115278356A (zh) * 2022-06-23 2022-11-01 上海高顿教育科技有限公司 一种智能化的课程视频剪辑控制方法

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08137656A (ja) * 1994-11-09 1996-05-31 Toshiba Corp 文書編集装置
JPH08314958A (ja) * 1995-05-18 1996-11-29 Hitachi Ltd 議会議事録検索システムにおけるデータ登録方法
JPH0991928A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像の編集方法
JPH09237486A (ja) * 1996-03-01 1997-09-09 Nippon Steel Corp 映像と文字との統合管理システム
US6336093B2 (en) * 1998-01-16 2002-01-01 Avid Technology, Inc. Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video
JPH11289512A (ja) * 1998-04-03 1999-10-19 Sony Corp 編集リスト作成装置
JP4192703B2 (ja) * 2003-06-30 2008-12-10 日本電気株式会社 コンテンツ処理装置、コンテンツ処理方法及びプログラム
JP4079096B2 (ja) * 2004-02-18 2008-04-23 日本電信電話株式会社 映像音声とシナリオとの整合状態の修正支援方法及び整合修正支援装置及び整合修正プログラム

Also Published As

Publication number Publication date
JP2007295218A (ja) 2007-11-08

Similar Documents

Publication Publication Date Title
JP4741406B2 (ja) ノンリニア編集装置およびそのプログラム
JP5045670B2 (ja) 音声データ要約再生装置、音声データ要約再生方法および音声データ要約再生用プログラム
US10088976B2 (en) Systems and methods for multiple voice document narration
US8548618B1 (en) Systems and methods for creating narration audio
US8498866B2 (en) Systems and methods for multiple language document narration
US8346557B2 (en) Systems and methods document narration
US8751022B2 (en) Multi-take compositing of digital media assets
JP6128146B2 (ja) 音声検索装置、音声検索方法及びプログラム
JP2008022103A (ja) テレビ番組動画像ハイライト抽出装置及び方法
JP6280312B2 (ja) 議事録記録装置、議事録記録方法及びプログラム
KR20110055957A (ko) 파워포인트에 TTS 모듈을 플러그인(plug-in)하여 음성 합성된 파워포인트 문서 및 다양한 동영상 파일을 작성하는 방법과 이에 따른 시스템
JP6865701B2 (ja) 音声認識誤り修正支援装置およびそのプログラム
JP3896760B2 (ja) 対話記録編集装置、方法及び記憶媒体
JP4780128B2 (ja) スライド再生装置、スライド再生システム、およびスライド再生プログラム
JP2005285076A (ja) 映像情報制作方法
JP3841815B2 (ja) 映像デ―タ編集方法
JP7156748B1 (ja) 情報処理システム及び情報処理方法
KR102274275B1 (ko) 음성파일이 연동된 텍스트 링크 생성 어플리케이션 및 방법
JP7236570B1 (ja) システム、通信端末、及び方法
JP7128222B2 (ja) 映像コンテンツに対する合成音のリアルタイム生成を基盤としたコンテンツ編集支援方法およびシステム
JP4563418B2 (ja) 音声処理装置、音声処理方法、ならびに、プログラム
JP2021140084A (ja) 音声認識誤り修正支援装置、プログラムおよび方法、ならびに、音声認識装置
JP5095489B2 (ja) 演出画像作成装置、演出画像作成方法、演出画像作成プログラム及び記録媒体
JP4068915B2 (ja) 映像データ編集装置及び編集方法
US9471205B1 (en) Computer-implemented method for providing a media accompaniment for segmented activities

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20081029

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20100709

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100720

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100916

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20110308

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20110323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110412

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110506

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140513

Year of fee payment: 3

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees