JP4741406B2

JP4741406B2 - ノンリニア編集装置およびそのプログラム

Info

Publication number: JP4741406B2
Application number: JP2006120126A
Authority: JP
Inventors: 昌巳藤田; 章中村; 康之近藤; 智保杉浦; 正啓柴田
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2006-04-25
Filing date: 2006-04-25
Publication date: 2011-08-03
Anticipated expiration: 2026-04-25
Also published as: JP2007295218A

Description

本発明は、テキストデータに連動させて映像や音声を編集するための編集データを生成するノンリニア編集装置およびそのプログラムに関する。

近年、映像や音声の編集は、映像等を記録したテープを再生し、所望の箇所を他のテープにコピーするリニア編集から、映像等を、一旦、ハードディスク等の記憶装置にデジタルデータとして書き込み、コンピュータによって編集するノンリニア編集へと移行している。
このノンリニア編集を行うノンリニア編集システムは、記憶装置に記憶してある映像等を、コンピュータ端末のＧＵＩ（Graphical User Interface）上で、操作者が「コピー」、「カット」、「ペースト」等の操作を行うことで、映像等の開始点・終了点からなる編集データを作成する。そして、ノンリニア編集システムは、編集した映像等を再生する際には、この編集データに基づいて、記憶装置から所望の開始点・終了点間の映像等を読み出して出力する。これによって、ノンリニア編集は、リニア編集に比べ、編集にかかる時間を削減することができる。
しかし、ノンリニア編集であっても、編集段階や、編集内容を確認する段階においては、操作者が映像等を再生する必要があるため、編集に多大な時間を要しているのが現状である。

そこで、テキストデータであるセンテンス（文章）と、映像のフレームとを対応付けておき、テキストを編集することで、それに対応する映像の編集を行う技術が開示されている（特許文献１参照）。この技術は、テキストデータであるセンテンスと、そのセンテンスに対応する映像の開始フレーム番号および終了フレーム番号とを、予め対応付けておき、センテンスを選択したり、センテンスの順序を換えたりすることで、映像のアクセス順序を任意に変更することを可能にしたものである。
これによって、操作者は、情報量が多く編集が困難な映像自体を編集することがなく、情報量の少ないテキストデータを編集することで、簡易に映像の編集を行うことができる。
特開平９−２３７４８６号公報（段落００８６〜００８９、図５）

しかし、前記した従来の技術によれば、予めテキストデータであるセンテンスと映像のフレームとを対応付けておく必要があるため、その対応付けのための入力作業に多くの時間を要してしまうという問題があった。
また、従来の技術では、１つのセンテンスに複数の映像のフレームが対応付けられるため、映像の編集単位がセンテンス単位となり、細かい映像の編集を行うことができないという問題があった。

本発明は、以上のような課題を解決するためになされたものであり、映像や音声と、テキストデータとを、人手を介さず対応付けるとともに、テキストデータの文字単位の編集に連動させて、映像や音声を編集するための編集データを生成することが可能なテキスト連動型のノンリニア編集装置およびそのプログラムを提供することを目的とする。

本発明は、前記目的を達成するために創案されたものであり、まず、請求項１に記載のノンリニア編集装置は、時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するノンリニア編集装置であって、テキスト対応付け手段と、表示手段と、テキスト編集手段と、編集データ生成手段と、を備える構成とした。

かかる構成において、ノンリニア編集装置は、テキスト対応付け手段によって、映像に対応する時間情報が付加された音声を音声認識して、その時間情報に対応付けたテキストデータを生成する。これによって、テキストデータと、映像や音声とは、時間情報（タイムコード）を介して対応付けられることになる。このとき、テキストデータは、少なくとも１文字単位でタイムコードに対応付けることが可能である。
また、ノンリニア編集装置は、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。これによって、映像に対応する音声は、映像の表示（再生）に連動して、テキストデータとして表示されることになる。

そして、ノンリニア編集装置は、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。このとき、テキストデータに対する編集は、そのまま時間情報で対応付けられた映像や音声の編集内容に相当することになる。そして、ノンリニア編集装置は、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。
なお、テキストデータと映像とは、時間情報で対応付けられているため、映像を編集することで、テキストデータを編集することも可能である。

また、請求項２に記載のノンリニア編集装置は、請求項１に記載のノンリニア編集装置において、前記テキスト対応付け手段が、音声認識により認識された単語の切れ目ごとに前記時間情報を対応付けることで前記テキストデータを生成し、前記テキスト編集手段が、前記単語単位で前記テキストデータを編集する構成とした。

かかる構成において、ノンリニア編集装置は、テキスト対応付け手段が、音声認識により、音声をテキストデータに変換する際に、音声認識結果である単語の切れ目ごとに時間情報を付加したテキストデータを生成する。
そして、ノンリニア編集装置は、テキスト編集手段によって、単語単位でテキストデータを編集する。このように、編集の最小単位を単語単位とすることで、音声として意味を持たない単語の途中で音声を編集することがなくなる。

また、請求項３に記載のノンリニア編集装置は、時間情報が付加された映像に基づいて、前記映像を編集するための編集データを生成するノンリニア編集装置であって、テキストデータ入力手段と、テキスト対応付け手段と、表示手段と、テキスト編集手段と、編集データ生成手段と、を備える構成とした。

かかる構成において、ノンリニア編集装置は、テキストデータ入力手段によって、外部から映像に対応するテキストデータを入力する。このテキストデータは、予め映像に対応する音声を電子化した原稿等である。
そして、ノンリニア編集装置は、テキスト対応付け手段によって、テキストデータ入力手段で入力されたテキストデータに、操作者の指示に基づいて、単語の切れ目ごとに映像に付加された時間情報を対応付ける。
また、ノンリニア編集装置は、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。

そして、ノンリニア編集装置は、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。そして、ノンリニア編集装置は、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。

さらに、請求項４に記載のノンリニア編集装置は、請求項１から請求項３のいずれか一項に記載のノンリニア編集装置において、前記編集データ生成手段が、前記テキストデータ内に固有の制御文字により識別された編集の開始点および終了点を記述されることにより、前記開始点および終了点を認識し、当該開始点および終了点に対応する時間情報に基づいて、前記編集データを生成する構成とした。

かかる構成において、ノンリニア編集装置は、テキスト編集手段において、テキストデータ内に編集の開始点（イン点）および終了点（アウト点）を示す固有の制御文字を記述されることで、テキストデータに対応付けられた時間情報から、開始点および終了点の時間を認識することができる。
そして、編集データ生成手段が、その開始点および終了点の時間を映像や音声のカット点とした編集データを生成する。

さらに、請求項５に記載のノンリニア編集装置は、請求項１から請求項４のいずれか一項に記載のノンリニア編集装置において、前記映像を編集する映像編集手段を備え、前記テキスト編集手段が、前記映像編集手段で編集された映像に対応する時間情報に基づいて、前記テキストデータおよび当該テキストデータに対応付けられた時間情報を編集する構成とした。

かかる構成において、ノンリニア編集装置は、映像編集手段によって、映像を編集することで、テキスト編集手段が、映像に対応付けられた時間情報に基づいて、テキストデータを編集することができる。

また、請求項６に記載のノンリニア編集プログラムは、時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するために、コンピュータを、テキスト対応付け手段、表示手段、テキスト編集手段、編集データ生成手段、として機能させる構成とした。

かかる構成において、ノンリニア編集プログラムは、テキスト対応付け手段によって、映像に対応する時間情報が付加された音声を音声認識して、その時間情報に対応付けたテキストデータを生成する。これによって、テキストデータと、映像や音声とは、時間情報（タイムコード）を介して対応付けられることになる。
また、ノンリニア編集プログラムは、表示手段によって、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、時間情報に対応付けてテキストデータと映像とを表示装置に表示する。これによって、映像に対応する音声は、映像の表示（再生）に連動して、テキストデータとして表示されることになる。
そして、ノンリニア編集プログラムは、テキスト編集手段によって、テキストデータを操作者の操作に基づいて編集する。
そして、ノンリニア編集プログラムは、編集データ生成手段によって、テキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、編集データを生成する。
このとき、編集データ生成手段は、テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、編集データ内に文字スーパー文字列の再生情報を付加する。

本発明は、以下に示す優れた効果を奏するものである。
請求項１、７に記載の発明によれば、映像や音声とテキストデータとを、人手を介さず対応付けるとともに、テキストデータの任意の位置で映像や音声を編集することが可能になる。これによって、映像や音声を視聴することなく、文字によって、編集結果を確認することができるため、映像や音声の編集時間を短くすることができる。

請求項２に記載の発明によれば、単語単位で編集を行うため、音声として意味を持たない単語の途中で音声を編集することがなくなり、編集操作の効率性を高めることができる。

請求項３に記載の発明によれば、テキストデータの任意の位置で映像を編集することが可能になる。これによって、編集結果を文字で確認することができるため、映像の編集時間を短くすることができる。

請求項４に記載の発明によれば、テキストデータに固有の文字を挿入するだけで、映像や音声の編集の開始点および終了点を設定することができ、映像や音声を再生して開始点および終了点を設定する場合に比べて、短時間で編集作業を行うことが可能になる。

請求項５に記載の発明によれば、テキストデータの一連の編集作業において、文字スーパーを挿入する編集データを生成することができる。これによって、映像を再生して文字スーパーを挿入する箇所を探索する必要がないため、短時間で文字スーパーを設定した編集データを生成することができる。

請求項６に記載の発明によれば、映像とテキストデータとを時間情報で対応付けているため、従来のように映像を編集することで、編集データを生成するユーザインタフェースと、テキストデータを編集することで、編集データを生成するユーザインタフェースとを共存させることができ、操作者の利便性を高めることができる。

以下、本発明の実施の形態について図面を参照して説明する。
［ノンリニア編集装置の概要］
最初に、図１を参照して、本発明に係るノンリニア編集装置について、その概要を説明する。図１は、本発明に係るノンリニア編集装置の概要を説明するための図であって、ノンリニア編集装置が表示する表示画面を示している。
ノンリニア編集装置１は、映像に対応したタイムコード（時間情報）が付加された音声に基づいて、映像や音声を編集するための編集データを生成するものである。
このノンリニア編集装置１は、タイムコードで対応付けられた映像および音声を入力し、入力された音声を音声認識したテキストデータを表示画面Ｄのテキスト表示領域Ｔに表示する。また、ノンリニア編集装置１は、入力された映像を表示画面Ｄの映像表示領域Ｍに表示する。

そして、操作者が、テキスト表示領域Ｔに表示されているテキストデータを編集することで、ノンリニア編集装置１は、テキストデータの編集に連動して映像や音声を編集するための編集データを生成する。
このように、ノンリニア編集装置１は、テキストデータと、映像および音声とを同一のタイムコードで対応付けるため、ノンリニア編集を、テキストデータの編集により行うことを可能にしている。
以下、本発明に係るノンリニア編集装置の構成および動作について説明を行う。

≪第１実施形態≫
［ノンリニア編集装置の構成］
まず、図２を参照して、本発明の第１実施形態に係るノンリニア編集装置の構成について説明する。図２は、本発明の第１実施形態に係るノンリニア編集装置の構成を示すブロック図である。
図２に示すように、ノンリニア編集装置１は、時間情報が付加された映像および音声に基づいて、当該映像および音声を編集するための編集データを生成するものである。
ここでは、ノンリニア編集装置１は、制御手段１０と、記憶手段２０と、入力手段３０と、編集手段４０と、表示手段５０と、出力手段６０とを備えている。

制御手段１０は、ノンリニア編集装置１全体を制御するものである。この制御手段１０は、図示を省略したメニュー画面等を画面上に表示し、操作者が選択した動作を実行する。ここでは、制御手段１０は、入力手段３０、編集手段４０、表示手段５０および出力手段６０を制御する。そして、制御手段１０は、編集対象の映像・音声を入力する際は、入力手段３０を動作させ、編集作業を行う際は、編集手段４０や表示手段５０を動作させ、編集データ等の編集結果を出力する際は、出力手段６０を動作させる。

記憶手段２０は、外部から入力された映像・音声、ノンリニア編集装置１において使用する各種データ、あるいは編集結果を記憶するものである。ここでは、記憶手段２０は、音声認識用データ記憶手段２１と、編集データ記憶手段２２とを備えている。

音声認識用データ記憶手段２１は、後記するテキスト対応付け手段３２の音声認識手段３２１において使用される言語モデル、音響モデル等の音声認識に用いる各種データを記憶しておくものであって、ハードディスク等の一般的な記憶装置である。
言語モデルは、大量の音声データから学習した出力系列（単語、形態素、音素等）の出現頻度や接続確率等をモデル化したものである。この言語モデルには、例えば、一般的な「Ｎグラム言語モデル」を用いることができる。
音響モデルは、大量の音声データから予め学習した音素ごとの特徴量を「隠れマルコフモデル」によってモデル化したものである。この音響モデルは、単一の音響モデルを用いてもよいし、音響の種別（例えば、人物別）ごとに複数のモデルを用いてもよい。

編集データ記憶手段２２は、編集対象となる映像、音声の素材データや、編集結果を記憶するものであって、ハードディスク等の一般的な記憶装置である。また、編集データ記憶手段２２に記憶される映像および音声には、タイムコードが付加されているものとする。なお、音声に付加されているタイムコードは、「時：分：秒：映像フレーム番号」として、映像のフレーム（映像フレーム）と対応付けられているものとする。
ここでは、記憶手段２０を、音声認識用データ記憶手段２１と、編集データ記憶手段２２とを別のハードディスク等によって構成しているが、同一のハードディスク等で構成してもよい。

入力手段３０は、制御手段１０からの制御に基づいて、映像・音声を入力し、タイムコードに対応したテキストデータを生成するものである。ここでは、入力手段３０は、映像音声入力手段３１と、テキスト対応付け手段３２とを備えている。

映像音声入力手段３１は、外部から、編集対象となる映像および音声を入力するものである。なお、映像音声入力手段３１は、入力された映像および音声を編集データ記憶手段２２に記憶する。

テキスト対応付け手段３２は、音声を音声認識し、タイムコードに対応したテキストデータを生成するものである。ここでは、テキスト対応付け手段３２は、音声認識手段３２１で構成されている。

音声認識手段３２１は、音声をテキストデータに変換する一般的な音声認識の機能に加え、認識結果であるテキストデータに映像・音声のタイムコードを対応付けて付加するものである。なお、音声認識手段３２１は、音声認識用データ記憶手段２１に記憶されている言語モデルや音響モデルを用いて、音声認識を行う。ここでは、音声認識手段３２１は、分析手段３２１ａと、類似度算出手段３２１ｂと、探索手段３２１ｃとを備えている。

分析手段３２１ａは、音声の音声波形に窓関数（ハミング窓等）をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで、種々の特徴量を抽出するものである。例えば、フレーム化された波形のパワースペクトルの対数を逆フーリエ変換した値であるケプストラム係数等を特徴量とする。この特徴量には、ケプストラム係数以外にも、メル周波数ケプストラム係数（ＭＦＣＣ：Mel Frequency Cepstrum Coefficient）、ＬＰＣ（Linear Predictive Cording）係数、対数パワー等、一般的な音声特徴量を用いることができる。なお、分析手段３２１ａは、特徴量を抽出した時点における映像・音声に付加されているタイムコードを、当該特徴量に付加することとする。

類似度算出手段３２１ｂは、分析手段３２１ａで分析され、時系列に入力される特徴量と、音声認識用データ記憶手段２１に記憶されている音響モデルでモデル化されている音素との類似度（確率値）を算出するものである。なお、類似度算出手段３２１ｂは、特徴量に付加されているタイムコードを、音素および類似度（確率値）とともに探索手段３２１ｃに出力する。

探索手段３２１ｃは、音声認識用データ記憶手段２１に記憶されている言語モデルから、接続される出力系列の候補を探索し、確率値が最大となる出力系列を入力音声に対する認識結果（テキストデータ）として出力するものである。ここでは、探索手段３２１ｃは、認識結果であるテキストデータを編集データ記憶手段２２に記憶する。なお、探索手段３２１ｃは、テキストデータを逐次出力する際に、分析手段３２１ａで付加されたタイムコードに基づいて、単語の切れ目ごとにタイムコードを付加することとする。
このように音声認識手段３２１を構成することで、音声認識されたテキストデータは、図３に示すように、各単語に映像のフレームごとに対応したタイムコードが付加されることになる。このテキストデータは、表示手段５０によって、図示を省略した表示装置に出力される。

編集手段４０は、制御手段１０からの制御に基づいて、編集データ記憶手段２２に記憶されている映像および音声と、テキストデータとを連動させて編集することで、編集データを生成するものである。なお、編集データとは、編集対象の映像や音声において、少なくとも再編成用に抽出するための区間を示す、タイムコードの開始点および終了点の１組以上のデータである。ここでは、編集手段４０は、テキスト編集手段４１と、映像編集手段４２と、音声編集手段４３と、編集データ生成手段４４とを備えている。

テキスト編集手段４１は、編集データ記憶手段２２に記憶されているテキストデータを編集するものである。ここでは、テキスト編集手段４１は、表示手段５０によって表示されたテキストデータに対して、操作者が図示を省略したマウス、キーボード等の入力装置を介して編集操作を行うことで、テキストデータの編集を行う。
すなわち、テキスト編集手段４１は、操作者が「コピー」、「カット」、「ペースト」の操作を行うことで、テキストデータの部分入れ替えや、削除等を行う。なお、テキスト編集手段４１は、テキストデータの編集を単語単位で行うこととする。これによって、テキストデータに対応付けられたタイムコード単位で、編集が行われることになる。

なお、テキスト編集手段４１は、編集箇所を示すカーソルをテキストデータと同時に画面上に表示し、操作者がキーボード等によって、カーソルを移動させたときに、そのカーソル位置に対応する文字に対応付けられたタイムコードを、映像編集手段４２に通知することで、対応するシーン（フレーム）を表示させる。

また、テキスト編集手段４１は、操作者から、テキストデータに予め定めた制御文字等を入力されることで、テキストデータに編集用の情報を設定する。このテキスト編集手段４１におけるテキストデータの編集結果は、編集データ生成手段４４に出力される。

ここで、図４を参照（適宜図２参照）して、編集用の情報となる制御文字について説明する。図４は、制御文字を説明するための説明図であって、ノンリニア編集装置の表示画面に表示されたテキストデータを示している。

例えば、図４に示したように、テキストデータの任意の文字列を、予め定めた固有の制御文字（編集識別文字、例えば“／”）で囲むことで、テキストデータ内に、映像や音声を編成するための編集点（開始点〔イン点〕、終了点〔アウト点〕）を設定する。
このとき、編集点において、さらに、演出効果を特定する予め定めた固有の制御文字（効果識別文字）を付加することとしてもよい。すなわち、映像の演出効果として、「フェード」、「ワイプ」、「ディゾルブ」等を識別する文字と、その時間を付加する。例えば、「フェード」を特定するための文字（例えば、“ＦＯ”）と、その時間を示す数字（例えば、“３”）とを、効果識別文字（例えば“《”、“》”）で囲むことで、テキストデータ内に、編集点における映像の演出効果を文字列（例えば、“／《ＦＯ３》”）として設定する。図４の例では、終了点において、３秒でフェードアウトすることを示している。
なお、「ワイプ」、「ディゾルブ」等については、他の制御文字を予め定めておくことで、設定を行うことが可能である。

また、予め定めた固有の制御文字（文字スーパー区間識別文字、文字スーパー識別文字）と任意の文字列（文字スーパー文字列）を、テキストデータに挿入することで、映像内に挿入する文字スーパーと、その文字スーパーを表示する文字スーパー開始点および文字スーパー終了点とを設定することとしてもよい。例えば、テキストデータの任意の文字列を、文字スーパー区間識別文字（例えば“〔”、“〕”）で囲むことで、テキストデータ内に、文字スーパーを表示する時間区間を設定する。さらに、その区間内に、文字スーパー識別文字（例えば“『”、“』”で挟まれた文字列（文字スーパー文字列）を挿入することで、テキストデータ内に、文字スーパーの文字列を設定する。

また、予め定めた固有の制御文字（無音指定文字、例えば、“＿”）を設定することで、無音区間を設定することとしてもよい。この場合、無音指定文字の１文字分が、予め定めた時間長の無音時間とする。
また、例えば、テキストデータの任意の文字列を領域指定（映像・音声分離指定）することで、この領域の区間においては、映像と音声とを分離させ、編集時には映像のみを使用することを設定することとしてもよい。

このように、テキスト編集手段４１では、予め定めた制御文字等をテキストデータに挿入することで、種々の編集内容を設定することができる。なお、図４に示した制御文字等は、一例であって、他の文字を使用することも可能である。また、図４で説明した編集用の情報以外に、予め定めた制御文字（コメント指定文字、例えば、“（”、“）”）内に任意の文字列を挿入することで、映像や音声とは無関係なコメントを設定することとしてもよい。これによって、操作者は、当該コメントを「メモ」として使用することができ、編集を行う際の参考情報として利用することができる。
図２に戻って、テキスト編集手段４１について、説明を続ける。

このテキスト編集手段４１は、テキストデータを編集する際の補助を行うために、さらに、時間表示手段４１１と、キーワード検索手段４１２とを備えている。
時間表示手段４１１は、テキストデータに対応付けられたタイムコードを視覚化するものである。例えば、時間表示手段４１１は、図示を省略したマウス等の入力装置を介してテキストデータの任意の位置を指示されることで、当該位置に対応するタイムコードを表示する。なお、このとき、時間表示手段４１１は、タイムコードとして、編集対象となる映像、音声の素材データのタイムコードと、編集後の映像、音声に対応するタイムコードとを表示することとしてもよい。

また、時間表示手段４１１は、テキストデータの任意の文字列をマウス等によって、ドラッグされることで、そのドラッグ領域の文字列に対応する映像・音声の再生時間を、テキストデータに対応付けられたタイムコードから算出し、表示することとしてもよい。これによって、操作者は、テキストデータから編集後の映像・音声の時間を確認することができる。

キーワード検索手段４１２は、テキストデータ内から、任意の文字列（キーワード）を検索するものである。すなわち、キーワード検索手段４１２は、表示画面上にキーワードを入力する入力画面を表示し、操作者からキーワードを入力されることで、編集データ記憶手段２２に記憶されているテキストデータから、キーワードを検索する。
これによって、操作者は、映像や音声を実際に再生して編集したい箇所を探索しなくても、キーワードを入力することで、編集したい箇所を探索することができる。

映像編集手段４２は、編集データ記憶手段２２に記憶されている映像を編集するものである。ここでは、映像編集手段４２は、表示手段５０によって表示された映像に対して、操作者が図示を省略したジョグ・シャトルコントローラ等の操作装置を介して編集操作を行うことで、映像の編集を行う。例えば、映像編集手段４２は、操作者によって、ジョグ・シャトルコントローラを介して、フレーム単位で映像を再生・停止させ、編集点（開始点、終了点）を設定する。あるいは、操作者によって、マウス等により表示画面上の操作ボタン等を押下されることで、映像の再生・停止、編集点の設定を行う。

このとき、映像編集手段４２は、テキストデータに対して、編集点のタイムコードに対応する箇所に、編集識別文字（図４参照）を挿入する。これによって、映像によって、編集点を設定する場合であっても、その映像に連動して、テキストデータが編集されることになる。
なお、操作者が所望する映像のシーンを表示させる場合、タイムコードに対応付けたタイムライン上のカーソルを操作者が移動させることで、シーンを表示させることとしてもよい。

音声編集手段４３は、編集データ記憶手段２２に記憶されている音声を編集するものである。この音声編集手段４３は、映像編集手段４２によって編集された映像のタイムコードに対応付けて、音声の編集を行う。さらに、音声編集手段４３は、テキスト編集手段４１によって編集されたテキストデータのタイムコードによっても、音声の編集を行う。

編集データ生成手段４４は、テキストデータに挿入されている編集用の制御文字等（図４参照）と、テキストデータに対応付けされているタイムコードとに基づいて、映像や音声を編集するための編集データを生成するものである。
すなわち、編集データ生成手段４４は、図４で説明した各種の制御文字等を探索することで、各制御文字に対応する編集内容を編集データとして生成する。

例えば、編集データ生成手段４４は、テキストデータにおいて、編集点（開始点、終了点）を示す編集識別文字を探索し、第１の編集識別文字の直後の単語に設定されているタイムコードを、開始点のタイムコードとする。また、編集データ生成手段４４は、第２の編集識別文字の直後の単語に設定されているタイムコードの直前の映像のフレームに対応するタイムコードを、終了点のタイムコードとする。

さらに、編集データ生成手段４４は、テキストデータに演出効果を特定する効果識別文字が含まれている場合、その効果識別文字が挿入されている位置に対応するタイムコードの時点から、指定された演出効果を行う旨のコードを編集コードに記述する。
また、編集データ生成手段４４は、テキストデータに文字スーパー区間識別文字が含まれている場合は、第１の文字スーパー区間識別文字の直後の単語に設定されているタイムコードを、文字スーパー開始点のタイムコードとする。また、編集データ生成手段４４は、第２の文字スーパー区間識別文字の直後の単語に設定されているタイムコードの直前の映像のフレームに対応するタイムコードを、文字スーパー終了点のタイムコードとする。そして、編集データ生成手段４４は、文字スーパー区間識別文字間の文字スーパー識別文字で囲まれている文字列を文字スーパーの文字列とする。

また、編集データ生成手段４４は、テキストデータに無音指定文字が含まれている場合は、その無音指定文字で示される無音区間だけは、映像を編集する旨の内容を編集データに記述する。
なお、生成された編集データは、編集データ記憶手段２２に記憶される。

ここで、図５を参照して、編集データ生成手段４４が生成する編集データの具体例について説明する。図５は、編集データ生成手段が生成する編集データのデータ構造図である。ここで、「番号」は、編集データのシリアル番号を示しており、編集データの先頭から順番に振られる連続番号である。
また、「編集対象」は、編集の対象を特定するための情報である。ここでは、編集対象が映像および音声の両方である場合を「ＶＡ」、映像のみである場合を「Ｖ」で示している。また、「編集内容」は、編集対象に対する編集の内容を特定する情報である。ここでは、編集点の開始点および終了点の映像を抽出（カット）する操作内容を「Ｃ」で示している。さらに、他の操作として、フェードアウトを「ＦＯ」で示している。また、開始点および終了点は、編集対象の開始および終了のタイムコードを示している。

また、編集データに文字スーパーの情報を付加するには、「番号０１５」に示すように、「編集対象」を映像「Ｖ」とし、「編集内容」を文字スーパーの付加を示す識別文字「Ｓ」に文字スーパーの文字列を付加した情報を記述し、文字スーパーの表示時間を開始点と終了点とに記述することとする。
このように、編集データ生成手段４４は、操作者によって、編集されたテキストデータのみから、図５に示した編集データを生成することができる。
図２に戻って、ノンリニア編集装置１の構成について説明を続ける。

表示手段５０は、図示を省略した表示装置に対して、少なくとも、テキストデータを表示するテキスト表示領域と、映像を表示する映像表示領域とに表示領域を区分して、タイムコードに対応付けてテキストデータと映像とを表示（出力）するものである。ここでは、表示手段５０は、テキスト表示手段５１と、映像・音声表示手段５２と、編集時間軸表示手段５３とを備えている。

テキスト表示手段５１は、表示装置のテキスト表示領域に、テキストデータを表示するものである。なお、テキスト表示手段５１は、映像・音声表示手段５２で再生される映像のタイムコードに連動して、テキストデータを表示し、映像が再生されている間は、タイムコードに基づいて、テキストデータをスクロールして表示する。また、テキスト表示手段５１は、現在の編集位置を示すテキストデータの位置にカーソルＣ_Ｔ（図１参照）を表示する。

映像・音声表示手段５２は、表示装置の映像表示領域に、映像を表示するものである。さらに、映像・音声表示手段５２は、図示を省略したスピーカ等の音声出力装置に対して、音声を出力する。なお、映像・音声表示手段５２は、映像・音声を再生中は、タイムコードをテキスト表示手段５１に対して通知するものとする。

また、映像・音声表示手段５２は、映像を表示する以外に、映像を再生表示するための操作ボタンをアイコンとして表示する。例えば、図１に示すように、「巻き戻し」、「再生」、「早送り」、「停止」等の操作ボタンや、開始点、終了点を設定する設定ボタンを表示し、当該ボタンをマウス等で押下されることで、映像編集手段４２が、映像の編集を行う。
また、映像・音声表示手段５２は、映像のタイムコードに対応付けたタイムラインを表示し、現在表示している映像のタイムコードに対応するシーン（フレーム）に対応する時間軸にカーソルＣ_Ｍ（図１参照）を表示する。

編集時間軸表示手段５３は、表示装置の編集時間軸表示領域に、編集対象となる映像および音声の素材データと、編集後の映像および音声、並びに、付加した文字スーパーと時間との関係を時間軸に沿って視覚化したタイムラインを表示するものである。この編集時間軸表示手段５３は、編集データ記憶手段２２に記憶されている映像、音声、編集データを参照して、映像および音声の全時間領域に対する、映像および音声の各開始点、終了点の時間軸上の位置を算出することで、図１に示すように、編集時間軸表示領域Ｌに、映像および音声のタイムラインを表示する。
また、編集時間軸表示手段５３は、現在表示している映像のタイムコードに対応するシーン（フレーム）に対応する時間軸にカーソルＣ_Ｌ（図１参照）を表示することとする。

出力手段６０は、映像・音声の編集結果である編集データ等を出力するものである。ここでは、出力手段６０は、編集データ出力手段６１と、テキストデータ出力手段６２とを備えている。

編集データ出力手段６１は、編集結果として編集データ記憶手段２２に記憶されている編集データを出力するものである。この編集データは、映像・音声を実際に編集するためのデータとして使用される。

テキストデータ出力手段６２は、編集結果として編集データ記憶手段２２に記憶されているテキストデータを出力するものである。なお、このテキストデータは、タイムコードを含んだものであってもよいし、タイムコードを含まない文字列だけのデータであってもよい。これによって、操作者は、編集結果を映像や音声以外に、テキストデータで確認することも可能になり、編集の確認作業を簡易化することが可能になる。
なお、このテキストデータは、映像や音声に対するメタデータや字幕データとして、他の用途として使用することも可能である。

以上説明したようにノンリニア編集装置１を構成することで、テキストデータに連動させて、映像や音声を編集するための編集データを生成することができる。これによって、映像や音声を視聴しながら時間をかけて行っていた編集作業を、テキストデータを編集するという簡易な作業で行うことが可能になる。
なお、ノンリニア編集装置１は、一般的なコンピュータを前記した各手段として機能させるノンリニア編集プログラムによって動作させることができる。

［ノンリニア編集装置の動作］
次に、図６〜図８を参照して、ノンリニア編集装置１の動作について説明する。なお、ここでは、ノンリニア編集装置１の動作を、映像・音声の入力動作と、編集動作と、出力動作の３つに分けて説明する。図６は、ノンリニア編集装置の映像・音声の入力動作を示すフローチャートである。図７は、ノンリニア編集装置の編集動作を示すフローチャートである。図８は、ノンリニア編集装置の出力動作を示すフローチャートである。

（入力動作）
最初に、図６を参照（適宜図２参照）して、ノンリニア編集装置１の入力動作について説明する。
まず、ノンリニア編集装置１は、入力手段３０の映像音声入力手段３１によって、外部から、編集対象となる映像および音声を入力し、編集データ記憶手段２２に記憶する（ステップＳ１）。

その後、ノンリニア編集装置１は、テキスト対応付け手段３２の音声認識手段３２１によって、音声を、映像・音声のタイムコードに対応付けたテキストデータに変換する。
すなわち、ノンリニア編集装置１は、分析手段３２１ａによって、編集データ記憶手段２２に記憶されている音声の音声波形に窓関数をかけることで、フレーム化された波形を抽出し、その波形を周波数分析することで特徴量を抽出する（ステップＳ２）。さらに、分析手段３２１ａは、特徴量を抽出した時点における音声に付加されているタイムコードを、当該特徴量に付加することで、特徴量をタイムコードとを対応付ける（ステップＳ３）。

そして、ノンリニア編集装置１は、類似度算出手段３２１ｂによって、ステップＳ３で抽出された特徴量と、音声認識用データ記憶手段２１に記憶されている音響モデルでモデル化されている音素との類似度（確率値）を算出する（ステップＳ４）。

さらに、ノンリニア編集装置１は、探索手段３２１ｃによって、音声認識用データ記憶手段２１に記憶されている言語モデルから、接続される出力系列の候補を探索し、確率値が最大となる出力系列を認識結果（テキストデータ）とするとともに、ステップＳ３で対応付けられたタイムコードに基づいて、単語の切れ目ごとにタイムコードを対応付ける（ステップＳ５）。

そして、ノンリニア編集装置１は、テキスト対応付け手段３２によって、単語の切れ目ごとにタイムコードが付加されたテキストデータを、編集データ記憶手段２２に記憶する（ステップＳ６）。
以上の動作によって、ノンリニア編集装置１は、映像・音声のタイムコードに単語ごとに対応したテキストデータを生成する。

（編集動作）
次に、図７を参照（適宜図１、図２参照）して、ノンリニア編集装置１の編集動作について説明する。なお、ここでは、操作者が、テキスト表示領域Ｔにおいて、テキストデータを編集する動作について説明する。

まず、ノンリニア編集装置１は、テキスト編集手段４１によって、図示を省略したマウス、キーボード等の入力装置を介して入力される操作者の操作を解析する（ステップＳ１１）。

ここで、操作者が行った操作が、テキスト表示領域ＴのカーソルＣ_Ｔを移動させる操作である場合（ステップＳ１２でＹｅｓ）、ノンリニア編集装置１は、テキスト表示領域ＴのカーソルＣ_Ｔの移動に伴って、映像・音声の再生位置を移動させる（ステップＳ１３）。
このとき、ノンリニア編集装置１は、テキスト編集手段４１によって、移動したカーソルＣ_Ｔの位置に対応するテキストデータのタイムコードを、編集データ記憶手段２２から読み出し、映像編集手段４２が、映像表示領域Ｍに表示させる映像を当該タイムコードに対応するシーンに移動させる。また、編集時間軸表示手段５３が、編集時間軸表示領域Ｌに表示するカーソルＣ_Ｌを、当該タイムコードに対応するシーン（フレーム）の位置に移動させる。

また、操作者が行った操作が、テキスト表示領域Ｔのテキストデータの編集操作である場合、すなわち、「コピー」、「カット」、「ペースト」や、編集点（開始点、終了点）の設定である場合（ステップＳ１４でＹｅｓ）、ノンリニア編集装置１は、テキストデータの部分入れ替えや、削除等に対応して、映像・音声の編集を行う（ステップＳ１５）。
このとき、ノンリニア編集装置１は、テキスト編集手段４１によって、編集されたテキストデータのタイムコードを編集データ記憶手段２２から読み出し、映像編集手段４２が、テキストデータのタイムコードに対応して映像を編集したのちに、映像表示領域Ｍに編集後の映像を表示させる。また、音声編集手段４３が、テキストデータのタイムコードに対応して音声を編集する。そして、編集データ生成手段４４が、テキストデータ内に挿入されている編集識別文字が挿入されている位置に対応するタイムコードを、編集点（開始点、終了点）として、編集データに付加する。

また、操作者が行った操作が、トランジッションの変更を行う操作である場合、すなわち、テキストデータに、「フェード」、「ワイプ」、「ディゾルブ」等を識別する文字と時間を設定する操作である場合（ステップＳ１６でＹｅｓ）、ノンリニア編集装置１は、トランジッションの種類と時間を編集データに付加する（ステップＳ１７）。
このとき、ノンリニア編集装置１は、テキスト編集手段４１において、テキストデータに映像の演出効果を示す文字（効果識別文字）が入力されたとき、編集データ生成手段４４によって、その効果識別文字が挿入されている位置に対応するタイムコードの時点から、指定された演出効果を行う旨のコードを編集コードに付加する。

また、操作者が行った操作が、文字スーパーの追加、すなわち、テキストデータに、文字スーパー識別文字で挟まれた文字列（文字スーパー文字列）を挿入する操作である場合（ステップＳ１８でＹｅｓ）、ノンリニア編集装置１は、文字スーパーの文字列とその表示時刻とを編集データに付加する（ステップＳ１９）。
このとき、ノンリニア編集装置１は、テキスト編集手段４１において、テキストデータに文字スーパー識別文字で挟まれた文字スーパー文字列を入力されたとき、編集データ生成手段４４によって、文字スーパー識別文字が挿入されている２箇所の位置に対応するタイムコードで示される時間区間に文字スーパー文字列を表示する旨のコードを編集コードに付加する。

また、操作者が行った操作が、テキストデータの時間情報を表示する操作である場合（ステップＳ２０でＹｅｓ）、ノンリニア編集装置１は、タイムコードに基づいて、対応する時間を表示画面に表示する（ステップＳ２１）。
このとき、ノンリニア編集装置１は、時間表示手段４１１によって、マウス等の入力装置を介してテキストデータの任意の位置を指示されることで、当該位置に対応するタイムコードを表示画面に表示する。あるいは、時間表示手段４１１は、テキストデータの任意の文字列をマウス等によってドラッグされることで、そのドラッグ領域の文字列に対応する時間を、テキストデータに対応付けられたタイムコードから算出し、その算出時間、すなわち再生時間を表示画面に表示する。

また、操作者が行った操作が、キーワードを検索する操作である場合（ステップＳ２２でＹｅｓ）、ノンリニア編集装置１は、テキストデータ内でキーワードを検索する（ステップＳ２３）。
このとき、ノンリニア編集装置１は、キーワード検索手段４１２によって、編集データ記憶手段２２に記憶されているテキストデータから、キーワードを検索する。
ここで、キーワードの検索に成功した場合（ステップＳ２４でＹｅｓ）、キーワード検索手段４１２は、カーソルＣ_Ｔの移動位置を、検索結果であるキーワードの位置に設定し、ステップＳ１２に戻ることで、キーワードが表示画面Ｄのテキスト表示領域Ｔ内に表示される。

そして、ノンリニア編集装置１は、編集操作の終了が指示されたか否かを判定し（ステップＳ２５）、終了が指示されていない場合（ステップＳ２５でＮｏ）、ステップＳ１１に戻って動作を継続する。一方、終了が指示された場合（ステップＳ２４でＹｅｓ）は、編集を終了する。なお、編集操作の終了指示は、制御手段１０が図示を省略したメニュー画面を表示し、操作者が編集終了を選択することにより行うこととする。

以上の動作によって、ノンリニア編集装置１は、テキストデータに連動させて編集データを生成することができる。
なお、ここでは、テキストデータに連動させて、編集データを生成する動作について説明したが、タイムコードによって、映像・音声とテキストデータとが対応付けられているため、映像・音声を編集することで、それにあわせてテキストデータを編集し、編集データを生成する。

（出力動作）
次に、図８を参照（適宜図２参照）して、ノンリニア編集装置１の出力動作について説明する。なお、ここでは、制御手段１０が図示を省略したメニュー画面を表示し、操作者が、所望するデータを選択することとする。

まず、ノンリニア編集装置１は、出力手段６０によって、操作者が選択した指示内容を解析する（ステップＳ３１）。
ここで、操作者が選択した指示内容が、編集データの出力である場合（ステップＳ３２でＹｅｓ）、ノンリニア編集装置１は、編集データ出力手段６１によって、編集データ記憶手段２２に記憶されている編集データを読み出し、出力する（ステップＳ３３）。

また、操作者が選択した指示内容が、時間情報が付加されていないテキストデータの出力である場合（ステップＳ３４でＹｅｓ）、ノンリニア編集装置１は、テキストデータ出力手段６２によって、編集データ記憶手段２２に記憶されているテキストデータから、文字情報のみを抽出し、出力する（ステップＳ３５）。
また、操作者が選択した指示内容が、時間情報が付加されたテキストデータの出力である場合（ステップＳ３６でＹｅｓ）、ノンリニア編集装置１は、テキストデータ出力手段６２によって、編集データ記憶手段２２に記憶されているテキストデータをそのまま読み出し、出力する（ステップＳ３７）。

そして、ノンリニア編集装置１は、出力動作の終了が指示されたか否かを判定し（ステップＳ３８）、終了が指示されていない場合（ステップＳ３８でＮｏ）、ステップＳ３１に戻って動作を継続する。一方、終了が指示された場合（ステップＳ３８でＹｅｓ）は、出力動作を終了する。なお、出力動作の終了指示は、制御手段１０が図示を省略したメニュー画面を表示し、操作者が出力終了を選択することにより行うこととする。

以上の動作によって、ノンリニア編集装置１は、編集データ以外に、テキストデータを出力することができる。なお、このテキストデータの出力において、タイムコードを付加するか否かを選択可能とすることで、テキストデータを編集データの確認用として使用する以外に、メタデータや、字幕データとして使用することも可能になる。
以上、ノンリニア編集装置１の構成および動作について説明したが、本発明はこれに限定されるものではない。以下に、他のノンリニア編集装置の構成について説明する。

≪第２実施形態≫
図９を参照して、本発明の第２実施形態に係るノンリニア編集装置の構成について説明する。図９は、本発明の第２実施形態に係るノンリニア編集装置の構成を示すブロック図である。
図２で説明したノンリニア編集装置１は、映像・音声を入力し、音声認識を行う際に、タイムコードを付加したテキストデータを生成することとしたが、ノンリニア編集装置１Ｂは、音声認識によりテキストデータを生成した後に、タイムコードを設定する構成としている。
すなわち、ノンリニア編集装置１Ｂは、入力手段３０Ｂが、図２で説明したノンリニア編集装置１の入力手段３０と異なっており、他の構成は同一のものである。そこで、入力手段３０Ｂ以外の構成については、図２で説明したノンリニア編集装置１と同一の符号を付し、説明を省略する。

入力手段３０Ｂは、映像音声入力手段３１と、テキスト対応付け手段３２Ｂとを備えている。なお、映像音声入力手段３１は、ノンリニア編集装置１（図２）の映像音声入力手段３１と同一の構成であるため、説明を省略する。

テキスト対応付け手段３２Ｂは、音声を音声認識することでテキストデータを生成し、そのテキストデータに対して、タイムコードを設定することで、映像・音声とテキストデータとを対応付けるものである。ここでは、テキスト対応付け手段３２は、音声認識手段３２１Ｂと、時間割付手段３２２とで構成されている。

音声認識手段３２１Ｂは、音声をテキストデータに変換するものであって、音声認識用データ記憶手段２１に記憶されている言語モデルや音響モデルを用いて、音声認識を行う。なお、音声認識手段３２１Ｂは、図２で説明した音声認識手段３２１のように、音声認識時にタイムコードをテキストデータに付加する機能を有さない一般的な音声認識手段である

時間割付手段３２２は、音声認識手段３２１Ｂで生成されたテキストデータにおいて、単語の切れ目ごとに時間情報（タイムコード）を設定するものである。ここでは、時間割付手段３２２は、テキストデータの単語単位で区分された指定位置と、その指定位置に割り付けるタイムコードとを入力されることで、テキストデータの指定位置にタイムコードを設定する。なお、時間割付手段３２２は、テキストデータ内に２箇所以上タイムコードを設定されることで、他の単語単位で区分された位置にタイムコードを設定することとする。

ここで、図１０を参照（適宜図９参照）して、時間割付手段３２２がテキストデータにタイムコードを設定する動作について説明する。図１０は、時間割付手段が行うタイムコード設定の動作を説明するための説明図である。

図１０（ａ）は、音声認識手段３２１Ｂによって、音声認識された後のテキストデータの内容を示している。ここで、テキストデータは、単語ごとに区分（Ｔ１〜Ｔ５）されている。
ここで、時間割付手段３２２は、テキストデータの指定位置とタイムコードとを入力されることで、指定位置にタイムコードを設定する。図１０の例では、図１０（ａ）のテキストデータで「花」と「の」との間（Ｔ１）に、１箇所目のタイムコードが設定されることで、時間割付手段３２２は、図１０（ｂ）に示すように、Ｔ１の位置にタイムコード（ＴＡ）を付加する。

さらに、時間割付手段３２２は、テキストデータで「細胞」と「から」との間（Ｔ３）に、２箇所目のタイムコードが設定されることで、時間割付手段３２２は、図１０（ｃ）に示すように、Ｔ３の位置にタイムコード（ＴＢ）を付加する。
このとき、時間割付手段３２２は、Ｔ１およびＴ３に設定されたタイムコード（ＴＡおよびＴＢ）に基づいて、他の単語間の位置（Ｔ２、Ｔ４およびＴ５）に、タイムコード（ＴＣ、ＴＤおよびＴＥ）を付加（自動割付）する。例えば、時間割付手段３２２は、すでに設定されているタイムコード（ＴＡおよびＴＢ）を線形補間することにより、タイムコード（ＴＣ、ＴＤおよびＴＥ）を設定することとする。

この時間割付手段３２２が行う線形補間は、各単語の文字数を基準として、簡易にタイムコードを線形補間することとしてもよい。また、音声認識手段３２１Ｂによって、各単語の音素数が既知の場合は、各単語の音素数を基準に線形補間することとしてもよい。また、音声認識手段３２１Ｂによって、各単語の時間長が既知の場合は、その時間長を基準に線形補間することとしてもよい。
なお、時間割付手段３２２は、すでにタイムコードが設定されている位置に再度タイムコードが設定された場合は、タイムコードの再割付を行う。これによって、タイムコードの精度を高めることができる。

以上、ノンリニア編集装置１Ｂの構成と動作とについて説明したが、時間割付手段３２２を、図２で説明したノンリニア編集装置１に組み込んで、音声認識によりタイムコードを付加したテキストデータを生成するか、操作者から設定されるタイムコードをテキストデータに付加するかを、適宜切り換えて動作させる構成としてもよい。

≪第３実施形態≫
次に、図１１を参照して、本発明の第３実施形態に係るノンリニア編集装置の構成について説明する。図１１は、本発明の第３実施形態に係るノンリニア編集装置の構成を示すブロック図である。
ノンリニア編集装置１（図２参照）や、ノンリニア編集装置１Ｂ（図９参照）では、テキストデータを、入力された音声を音声認識することで生成することとしたが、予め電子化された原稿等を入力することとしてもよい。
すなわち、ノンリニア編集装置１Ｃは、入力手段３０Ｃが、図２や図９で説明したノンリニア編集装置１，１Ｂの入力手段３０，３０Ｂと異なっており、他の構成は同一のものである。そこで、入力手段３０Ｃ以外の構成については、図２や図９で説明したノンリニア編集装置１，１Ｂと同一の符号を付し、説明を省略する。

テキストデータ入力手段３３は、外部から予め電子化された原稿等のテキストデータを入力するものである。なお、テキストデータ入力手段３３は、入力されたテキストデータを編集データ記憶手段２２に記憶する。
テキスト対応付け手段３２Ｃは、テキストデータ入力手段３３で入力されたテキストデータに対して、タイムコードを設定することで、映像とテキストデータとを対応付けるものである。ここでは、テキスト対応付け手段３２Ｃは、時間割付手段３２２を備えている。なお、この時間割付手段３２２については、すでに図９で説明したものと同一であるため、説明を省略する。
このようにノンリニア編集装置１Ｃを構成することで、音声認識を行わない安価な構成とすることもできる。

本発明に係るノンリニア編集装置の概要を説明するための説明図である。本発明の第１実施形態に係るノンリニア編集装置の構成を示すブロック図である。タイムコードを付加したテキストデータの構造を示すデータ構造図である。制御文字を説明するための説明図である。編集データ生成手段が生成する編集データの一例を示す図である。ノンリニア編集装置の映像・音声の入力動作を示すフローチャートである。ノンリニア編集装置の編集動作を示すフローチャートである。ノンリニア編集装置の出力動作を示すフローチャートである。本発明の第２実施形態に係るノンリニア編集装置の構成を示すブロック図である。時間割付手段が行うタイムコード設定の動作を説明するための説明図である。本発明の第３実施形態に係るノンリニア編集装置の構成を示すブロック図である。

符号の説明

１、１Ｂ、１Ｃノンリニア編集装置
１０制御手段
２０記憶手段
３０入力手段
３１映像音声入力手段
３２テキスト対応付け手段
３２１音声認識手段
３３テキストデータ入力手段
４０編集手段
４１テキスト編集手段
４２映像編集手段
４３音声編集手段
４４編集データ生成手段
５０表示手段
６０出力手段

Claims

時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するノンリニア編集装置であって、
前記音声を音声認識して、前記時間情報に対応付けたテキストデータを生成するテキスト対応付け手段と、
前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段と、
操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段と、
このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記編集データを生成する編集データ生成手段と、を備え、
前記編集データ生成手段は、
前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集装置。
前記テキスト対応付け手段は、音声認識により認識された単語の切れ目ごとに前記時間情報を対応付けることで前記テキストデータを生成し、
前記テキスト編集手段は、前記単語単位で前記テキストデータを編集することを特徴とする請求項１に記載のノンリニア編集装置。
時間情報が付加された映像に基づいて、前記映像を編集するための編集データを生成するノンリニア編集装置であって、
前記映像に対応するテキストデータを入力するテキストデータ入力手段と、
このテキストデータ入力手段で入力されたテキストデータに、操作者の指示に基づいて、単語の切れ目ごとに前記時間情報を対応付けるテキスト対応付け手段と、
前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段と、
前記操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段と、
このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記編集データを生成する編集データ生成手段と、を備え、
前記編集データ生成手段は、
前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集装置。
前記編集データ生成手段は、
前記テキストデータ内に固有の制御文字により識別された編集の開始点および終了点を記述されることにより、前記開始点および終了点を認識し、当該開始点および終了点に対応する時間情報に基づいて、前記編集データを生成することを特徴とする請求項１から請求項３のいずれか一項に記載のノンリニア編集装置。
前記映像を編集する映像編集手段を備え、
前記テキスト編集手段は、前記映像編集手段で編集された映像に対応する時間情報に基づいて、前記テキストデータおよび当該テキストデータに対応付けられた時間情報を編集することを特徴とする請求項１から請求項４のいずれか一項に記載のノンリニア編集装置。
時間情報が付加された映像および音声に基づいて、前記映像および音声を編集するための編集データを生成するために、コンピュータを、
前記音声を音声認識して、前記時間情報に対応付けたテキストデータを生成するテキスト対応付け手段、
前記テキストデータを表示するテキスト表示領域と、前記映像を表示する映像表示領域とに表示領域を区分して、前記時間情報に対応付けて前記テキストデータと前記映像とを表示装置に表示する表示手段、
操作者の指示に基づいて、前記テキストデータを編集するテキスト編集手段、
このテキスト編集手段で編集されたテキストデータに対応する時間情報に基づいて、前記映像を編集するための編集データを生成する編集データ生成手段、として機能させ、
前記編集データ生成手段は、
前記テキストデータ内に固有の制御文字により識別された文字スーパー文字列を記述されることにより、前記文字スーパー文字列を認識し、当該文字スーパー文字列の挿入位置に対応する時間情報に基づいて、前記編集データ内に前記文字スーパー文字列の再生情報を付加することを特徴とするノンリニア編集プログラム。