JP2009507453A

JP2009507453A - ビデオ編集方法および装置におけるテキスト位置の時間見積もり

Info

Publication number: JP2009507453A
Application number: JP2008530148A
Authority: JP
Inventors: シトマー・レオナード; オコナー・パトリック; リーバー・スティーブン・ジェイ
Original assignee: PortalVideo Inc
Current assignee: PortalVideo Inc
Priority date: 2005-09-07
Filing date: 2006-09-05
Publication date: 2009-02-19
Also published as: WO2007030481A3; US20070061728A1; CA2621080A1; WO2007030481A2; EP1932153A2

Abstract

【課題】ビデオ編集および特にラフカットの編集を向上させる、ビデオ編集システムにおける時間見積もり手段を提供する。
【解決手段】時間見積り手段４７は、ビデオデータの対応するオーディオのテキストスクリプトのトランスクリプションにおいて、メディアファイル／ビデオデータ領域内のユーザ選択された単語またはテキストユニットの時間位置を見積もる。ビデオ編集中に、時間見積り手段４７はユーザ選択されたテキストの概算時間位置を算出して表示することにより、テキストスクリプト内のユーザ選択された節３１ステートメントの開始および終了と、ラフカットまたは後続のビデオデータ編集作業における対応するビデオデータとの間のユーザによる相互参照を可能にする。
【選択図】図４Ｃ

Description

関連出願

本出願は、2005年9月7日出願の米国仮特許出願第60/714,950号の利益を主張するものであり、上記出願の全内容は参照により本明細書に引用したものとする。

ビデオ作成工程の初期段階では、インタビュー場面を取得し、編集ビデオの第１原案を作成する。ラフカット（rough cut：大まかなカット）すなわち第１原案の作成は、インタビュー素材を含む作成において必要な段階である。第１原案は一般に、追加のグラフィックスまたはビデオ画像を伴わずに構成され、ストーリを創作して一貫性を保って表現するためにのみ使用される。これは作成工程全体においてもっとも重要な工程の１つであり、またもっとも困難なものの１つである。ビデオ製作者にとっては、１時間番組のためのラフカットを完成するのに、25、50、100または200時間ものソーステープを処理するのが一般的である。

ラフカットを作成する現在の方法は断片的であり、非効率である。一部の製作者はインタビューのトランスクリプト（音声に対応する文字を起こしたテキストデータ）を用いて作業し、スクリプトのワード処理を行い、その後ビデオ編集を実行する。他の製作者は単にソース映像を編集システムに直接移動して、編集システムでインタビュー全体をリアルタイム表示し、候補のインタビュー部分のセットを選択し、その後編集してラフカットを作成する。

ラフカットが完成すると、通常、検討のために製作責任者または法人顧客に配布される。この時に要求される修正は、多量のビデオ編集およびテキスト編集を含む。これらの修正サイクルは極めて高コストで時間を要し、時にはプロジェクト存続の可能性を危うくする。

概して、本発明は、ビデオ編集のコンピュータ自動化方法および装置を提供することにより、従来技術の問題点に対処する。さらに詳細には、本発明はテキスト位置の時間見積りを提供する。このような時間見積りによって、ビデオ編集および特にラフカットの編集を向上させる構成が可能となる。

本発明の一実施形態において、第１原案すなわちラフカットは、以下のビデオ編集方法および装置によって作成される。トランスクリプションモジュールは対象ビデオデータを受け取る。ビデオデータは対応するオーディオ（音声）データを含む。トランスクリプションモジュールは、対象ビデオデータの対応するオーディオデータの作業トランスクリプトを作成し、トランスクリプト部分を対象ビデオデータのそれぞれ対応する部分に関連付ける。ホストコンピュータは、作業トランスクリプトの表示をユーザに提供し、表示されたトランスクリプトを通して対象ビデオデータの部分のユーザ選択を効率的に可能にする。組立要素が表示されたトランスクリプトのトランスクリプト部分のユーザ選択に応答して、それぞれ対応するビデオデータ部分を取得する。ユーザが選択した各トランスクリプト部分に対して、組立要素は、リアルタイムで、（ａ）それぞれ対応するビデオデータ部分を取得し、（ｂ）取得されたビデオデータ部分を組み合わせて、その結果得られるビデオ作品を作成し、（ｃ）その結果得られたビデオ作品のテキストスクリプトを表示する。

ホストコンピュータは、ユーザのさらなる編集のために、ラフカット（編集結果として得られたビデオ作品）および対応するテキストスクリプトをユーザに提供する。好ましくは、結果として得られたテキストスクリプトおよびラフカットは、同時に（例えば、並べて）表示される。ラフカットの表示には、最初のビデオデータまたは最初のビデオデータのメディアファイルが利用される。表示される対応テキストスクリプトは一連の節（passage）から構成される。さらに、各節は１つまたは複数のステートメント（一文）を含む。ユーザは、さらに、節内のステートメントのサブセットを選択することによって、ラフカットを編集してもよい。ビデオ編集装置によって、ユーザは節を再度定める（分割または区分する）ことができる。

節ステートメントのサブセットのユーザ選択に応じて、本発明は、ユーザ選択された節ステートメントの開始および終了のメディアファイル（最初のビデオデータ）内の対応する時間位置（例えば、経過時間のフレーム、時間、分、秒）を概算する。好ましい実施形態では、本発明は、ユーザによって選択されたテキストスクリプト内の単語（用語またはその他のテキストユニット）のメディアファイル／ビデオデータ領域における時間位置を概算する。編集作業の間、本発明は、ユーザ選択されたテキストの概算時間位置を算出および表示する。これは、ユーザが、テキストスクリプト内のユーザ選択された節ステートメントの開始および終了とラフカット内の対応するビデオデータとの間を相互参照するのに役に立つ。

メディアファイル内の時間位置とスクリプトテキスト内の対応するテキスト位置を関連付けることで、テキスト節を選択してユーザはメディアファイルを編集できる。本発明の時間見積り手段によって、任意のソースコンポーネントを選択してテキストとビデオの同時編集が可能になる。

本発明の上述およびその他の目的、特徴、および利点は、添付図面に示す本発明の好ましい実施形態の以下の詳細な説明から明らかになるであろう。図面では、同一参照符号は異なる図面においても同一部品を指す。図面は必ずしも縮尺通りでなく、本発明の原理を示すことに重点が置かれている。

以下に本発明の好ましい実施形態を説明する。

本発明はビデオまたはマルチメディア作品における音声のトランスクリプト内のテキスト位置のメディア／ビデオ時間見積りを提供する。さらに詳細には、本発明のメディア時間位置特定技術の使用法の１つは、テキスト選択によってビデオを編集し、ビデオを選択することによってテキストを編集することである。

図１は、本発明が実現されるコンピュータネットワークまたは同様のディジタル処理環境を示す。

クライアントコンピュータ／デバイス（装置）５０およびサーバコンピュータ６０は、アプリケーションプログラムなどを実行する、処理装置、記憶装置および入出力装置を備える。クライアントコンピュータ／デバイス５０は、また、他のクライアントデバイス／プロセッサ５０およびサーバコンピュータ６０を含む他のコンピュータデバイスと通信ネットワーク７０を介してリンクされている。通信ネットワーク７０は、相互に通信するために、リモートアクセスネットワーク、グローバルネットワーク（例えばインターネット）、コンピュータの世界規模の集合、ローカルエリアもしくはワイドエリアネットワークおよびゲートウェイの一部であってもよい。これらのネットワークなどは、現在のところ、それぞれのプロトコル（ＴＣＰ／ＩＰ、Bluetooth他）を使用する。他の、電子デバイス／コンピュータネットワークアーキテクチャも適している。

図２は、図１のコンピュータシステムにおけるコンピュータ（例えばクライアントプロセッサ／デバイス５０またはサーバコンピュータ６０）の内部構造図である。各コンピュータ５０、６０はシステムバス７９を内蔵する。このバスは、コンピュータもしくは処理システムのコンポーネント間のデータ転送のために使用されるハードウェア線のセットである。バス７９は基本的に、コンピュータシステム内の様々な構成要素（例えば、プロセッサ、ディスク記憶、メモリ、入力／出力ポート、ネットワークポートなど）を接続する共有のパイプ（ルート）であって、要素間の情報の転送を可能にする。コンピュータ５０、６０への様々な入力および出力デバイス（例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなど）を接続するために、Ｉ／Ｏデバイスインタフェース８２がシステムバス７９に結合されている。ネットワークインタフェース８６によって、コンピュータは、ネットワーク（例えば図１のネットワーク７０）に接続された様々な他のデバイスに接続できる。メモリ９０は、本発明の実施形態を実装するために使用されるコンピュータソフトウェア命令（例えば、プログラムルーチン９２およびデータ９４、詳細は後述）に対して揮発性記憶を提供する。ディスク記憶９５は、本発明の実施形態を実現するために使用される、コンピュータソフトウェア命令９２およびデータ９４に対して不揮発性記憶を提供する。中央プロセッサユニット８４もまたシステムバス７９に接続され、コンピュータ命令を実行する。

後に明らかにされるとおり、データ９４はソースビデオデータファイル（またはメディアファイル）１１および対応する作業トランスクリプトファイル１３（および関連するテキストスクリプトファイル１７）を含む。作業トランスクリプトファイル１３は、各ビデオデータ１１のオーディオトラックのテキストトランスクリプションである。

一実施形態では、プロセッサルーチン９２およびデータ９４は、本発明のシステムに対してソフトウェア命令の少なくとも一部を提供する、コンピュータ可読媒体（例えば、１つまたは複数のＤＶＤ−ＲＯＭ、ＣＤ−ＲＯＭ、フロッピー（登録商標）ディスク、テープなどの取外し可能記憶媒体）を含むコンピュータプログラム製品（総称して参照符号９２で示す）である。コンピュータプログラム製品９２は、技術的に公知の、任意の適したソフトウェアインストール手順によりインストールされる。別の実施形態では、ソフトウェア命令の少なくとも一部は、ケーブル、通信および／または無線接続を介してダウンロードされてもよい。別の実施形態では、本発明のプログラムは、伝搬媒体（例えば、電波、赤外線波、レーザー波、音波、またはインターネットもしくは他のネットワークなどのグローバルネットワークを介して伝搬される電波）の伝搬信号に埋め込まれたコンピュータプログラム伝搬信号製品１０７である。このような搬送媒体または搬送信号は、本発明のルーチン／プログラム９２に対するソフトウェア命令の少なくとも一部を提供する。

別の実施形態では、伝搬信号は、伝搬媒体上を搬送されるアナログ搬送波またはディジタル信号である。例えば、伝搬信号は、グローバルネットワーク（例えばインターネット）、電気通信ネットワークまたは他のネットワークを介して伝搬されるディジタル化信号であってもよい。一実施形態では、伝搬信号は、例えば数ミリ秒、数秒、数分の期間またはこれらよりも長い期間にわたりネットワークを介してパケットで送信されるソフトウェアアプリケーションの命令のような、ある期間にわたり伝搬媒体を介して転送される信号である。別の実施形態では、コンピュータプログラムプロダクト９２のコンピュータ可読媒体は、コンピュータプログラム伝搬信号製品について上述したとおり、コンピュータシステム５０が、例えば、伝搬媒体を受信して伝搬媒体に埋め込まれた伝搬信号を識別することによって、受信して読み取ることができる、伝搬媒体である。

一実施形態では、ホストサーバコンピュータ６０は、ビデオ編集に対するポータル（サービスおよび手段）を提供し、ルーチン９２は本発明のビデオ編集システムを実装する。ユーザ（クライアントコンピュータ５０）は、インターネットのようなグローバルコンピュータネットワーク７０を介して本発明のビデオ編集ポータルにアクセスする。プログラム９２は、好ましくはホストコンピュータ６０によって実行され、ユーザが（クライアントコンピュータ５０を介して）所望のビデオデータを編集できるようにするユーザ対話式ルーチンである。図３は、グローバルコンピュータネットワーク７０環境におけるビデオ編集サービスおよび手段についてのこのようなプログラム９２の１つを示している。

本発明を実現するのに、その他のコンピュータアーキテクチャおよび構成（ネットワークまたはスタンドアロン）も適合する。

図３を参照して、最初のステップ１００では、ユーザは、ユーザコンピュータ５０を介して、本発明のポータルすなわちホストコンピュータ６０に接続する。接続されると、ホストコンピュータ６０はセッションを初期化し、ユーザのＩＤなどを確認する。

次に（ステップ１０１）、ホストコンピュータ６０は、ユーザ命令により転送された（アップロードまたは別の方法で提供された）入力すなわち対象ビデオデータ１１を受信する。対象ビデオデータ１１は、対応するオーディオデータ、マルチメディアなどを含み、これらはメディアファイルに記憶されてもよい。これに応答して（ステップ１０２）、ホストコンピュータ６０は、受信されたビデオデータ（メディアファイル）１１の対応するオーディオデータを文字に起こし（transcribe）、作業トランスクリプト１３を作成する、トランスクリプションモジュール２３を使用する。受信されたオーディオデータから作業トランスクリプトを作成するのに、当技術分野では一般的である音声テキスト変換技術が利用される。このようにして、作業トランスクリプト１３は対象（ソース）ビデオデータ１１に対応するオーディオのテキストを提供する。さらに、トランスクリプションモジュール２３は、作業トランスクリプト１３の各部分とそれぞれ対応する対象ビデオデータ（メディアファイル）１１の各部分との間の、それぞれの関連付けを生成する。生成された関連付けは、リンク、ポインタ、参照またはその他のデータ疎結合技法として実装される。好ましい実施形態では、トランスクリプションモジュール２３は、作業トランスクリプト１３の各部分に、対象ビデオデータ１１の各部分のソース媒体トラック、フレームおよび経過時間に対応するタイムスタンプ（コード）３３を挿入する。

ホストコンピュータ６０は、ユーザコンピュータ５０を介してユーザに作業トランスクリプト１３を表示し、ユーザインタフェース２７をサポートする（ステップ１０４）。ステップ１０３では、ユーザインタフェース２７によって、ユーザは、表示される作業トランスクリプト１３を通して場面を追うことができ、オーディオテキスト（作業トランスクリプト）の所望の部分を選択できる。また、ユーザインタフェース２７によって、ユーザは、作業トランスクリプト１３の対応する部分を通して選択される（、かつその対応する部分を横に並べて閲覧される）、ソースビデオデータ１１の各部分を再生できる。これにより、オーディオ画像サンプリングおよび同時のトランスクリプト１３の閲覧がもたらされる。この閲覧は、オリジナルのビデオデータ１１のいずれの部分をカットまたは使用するのかをユーザが判断するのに役立つ。ホストコンピュータ６０は各ユーザの選択および命令に応答し、対象ビデオデータ１１の対応する各部分を取得する（ステップ１０５）。すなわち、表示された作業トランスクリプト１３のユーザ選択された部分から、ホストコンピュータの組立要素２５が、（ステップ１０２から）以前に生成された関連付けを利用して、ユーザが選択したオーディオテキスト（作業トランスクリプト１３の部分）に対応するオリジナルのビデオデータ１１の各部分を判別する。

ユーザはまた、ステップ１０５において、選択された各トランスクリプト部分の順序すなわちシーケンス（順番）を指定し、対象ビデオデータ１１の対応する各部分を順序付ける。組立要素２５は、ユーザによって選択された各部分および表示された作業トランスクリプト１３の順序に対応する対象ビデオデータ１１のこのように判別された部分すべてを、順序付けて追加または結合する。対象ビデオデータの編集バージョン（「ラフカット」として知られている）１５とこのビデオデータに対応するテキストスクリプト１７とが結果として得られる。

ホストコンピュータ６０は、結果として得られるビデオ作品（編集バージョンすなわちラフカット）１５および対応するテキストスクリプト１７を、ユーザコンピュータ５０を介してユーザに表示（再生）する（ステップ１０８）。好ましくは、ユーザ命令を受けると、ホストコンピュータ６０は、結果として得られたビデオ作品／編集（カット）バージョン１５とオリジナルの作業トランスクリプト１３を同時に表示する。このようにして、ユーザは、オリジナルのオーディオテキストを閲覧し、さらに編集（すなわち、対象ビデオデータ１１の他の部分つまり異なる部分、または各部分の異なる順序）が望まれるか否かを判定できる。さらなる編集が望まれる場合、上述のステップ１０３、１０４、１０５、および１０８が繰り返される（ステップ１０９）。望まれない場合、処理はステップ１１０で完了する。

ラフカットすなわち編集カット１５を前提として、本発明は、対応するテキストスクリプト１７と、随意の、対象ソースビデオデータ１１に対応するオーディオの作業トランスクリプト１３との表示を使用して、オーディオ−ビデオ（音声画像）トランスクリプトに基づくビデオ編集処理を提供する。さらに、組立要素２５は、作業トランスクリプト１３／テキストスクリプト１７部分に対応する、ユーザの選択および順序付け（シーケンシング）のラフカットおよび次のバージョン１５（および各テキストスクリプト１７）をリアルタイムで作成する。ユーザがラフカット１５を編集するのに役立てるように、本発明（ホストコンピュータ６０、プログラム９２）は、ユーザが単語を選択すると、テキストスクリプト１７内の単語またはその他のテキストユニットのビデオデータ１１における時間位置（例えば、経過時間のフレーム、時間、分、秒）を概算する。本発明は、ユーザが編集作業をしている間（ステップ１０３、１０４、１０５および１０８を通しての間）、テキストの概算時間位置を算出して表示する。表示される概算時間位置が、テキストスクリプト１７におけるユーザ選択された部分の開始および終了と、メディアファイル／ソースビデオデータ１１内における対応するビデオ−オーディオ（画像音声）セグメントとの間の相互参照の表示を提供する。

一実施形態では、バーインジケータ（bar indicator）７５が、全体ビデオデータ１１のうち、ユーザ選択されたテキスト部分３９に相当するビデオデータの部分を、グラフィック表示する。概算時間位置は、バーインジケータ７５の一端に関連付けられた概算開始時間およびバーインジケータ７５の他端に関連付けられた概算終了時間と共に表示される。これは図５に示されている。

好ましくは、バーグラフィックインタフェースは両方向に作用する。すなわち、ユーザがバーインジケータ７５を操作（ドラッグ／スライド）してビデオデータ１１の所望の部分を指定すると、本発明（ホストコンピュータ６０、プログラム９２）は、対応する結果として得られるテキストスクリプト１７を強調表示するかまたは指し示す。ユーザが作業テキストスクリプト１７のテキスト部分３９を選択すると、本発明は、ユーザ選択されたテキスト部分に相当するように、バーインジケータ７５を拡大（移動およびサイズ変更）する。

上述の内容は、テキストスクリプト１７の単語（ユニット）および文ユニットとビデオデータ（メディアファイル）１１における時間位置との間のマッピングを作成して運用することによって達成される。好ましい実施形態におけるテキストスクリプト１７内の時間位置に対する時間見積り（ビデオデータ１１領域内）が、図４Ａ〜４Ｃに示されている。作業テキストスクリプト１７は一連の節（passage）３１ａ、３１ｂ，…，３１ｎから構成される。各節３１は、システムデータ９４（図２）におけるレコードまたは同様のデータ構造によって表され、対応するビデオ化されるインタビュー（場面）の１つまたは複数のステートメント（一文）を含む。各節３１は、インタビュー（場面）のオリジナルのメディアキャプチャの開始時間、終了時間および／または経過時間によって、タイムスタンプ３３のインデックス付けがされている（、または時間コード化されている）。好ましくは、節３１の経過時間または継続時間はフレーム数単位である。

所与の節３１に対して（図４Ｂ）、本発明の時間見積り手段４７は、節のステートメント内の単語の数、単語間の位置（２つの単語に挟まれた箇所）の数、音節の数、頭字語の数、使用（引用）される数字の数、および文間の位置（２つの文に挟まれた箇所）の数を計数する。頭字語および数字は、辞書またはデータベース参照に基づいて判別されてもよい。一実施形態では、本発明の見積り手段４７は、また、二重母音の数を判別するか、または音節の数を識別するのに（母音に相関あるものなどとして）その他の方法を使用する。次に、上述の属性は、それぞれ、重み（通常、−１〜＋２の範囲）を乗算される。この結果が合計され、全合計は節３１についてのテキストユニットの数を提供する。

別の実施形態においては、対象の節３１内の音節数を判別するのに、種々の方法が用いられてもよい。例えば、辞書参照テーブルを使用して、対象の節３１内の用語（単語）を音節の数と相互参照してもよい。音節数を判別するのに、その他の手段および方法も適合する。

次に、本発明の見積り手段４７は節３１の時間基準相当値（定数Ｃ）を定義する。節３１の時間継続３３（フレーム数）は、節３１について上述したように算出されたテキストユニットの数で除算される。この結果の商の値が、基準時間相当値定数Ｃの値として使用される。

図４Ｂに示される例においては、節３１内の単一音節単語の数は１１、単語間の数は１５、多音節単語の数は７、頭字語の数は３、テキスト内で引用された数字の数は４である。

この例では、文間位置（２つの文に挟まれた箇所）は１である。この計算は、図４Ｂにおいて数字表示およびグラフィック表示されている。図４Ｂの文マップは、単語シーケンス（文）順番におけるグラフィック計算を示す。図において、各属性に対する重み４９が「係数」の欄に示されている。別の実施形態では、二重母音に対する重みは負値であり、テキストユニットのいずれの二重計算も有効に排除する。次に、この例におけるテキストユニットの全数は、（１１×０．９）＋（１５×１．１）＋（７×０．９）＋（３×０．９）＋（４×０．９）＋（１×１．３）＝４０．３として算出される。
図示された節３１の継続時間は、図４Ｂの参照符号３３で示されるとおり３６２フレームである。３６２フレームを算出された４０．３テキストユニットで除算すると、８．８９８フレーム／ユニットの基準時間相当値（以下で定数Ｃとして用いられる）である。

次に、算出された基準時間相当値定数を以下とおり用いて、ユーザ選択された単語テキストスクリプト１７の出現の見積り時間（ソースビデオデータ１１における出現時間の見積り）を算出する。

開始からの経過時間は＝テキストユニット×Ｃ（式１）
ここで、Ｃは既に定義した時間基準相当値定数である。

節３１の開始時間＋開始からの経過時間＝テキスト位置の見積り時間（式２）
図４Ｃは、テキストスクリプト１７の節３１の例における用語”team”の媒体時間（ビデオデータ１１領域）の見積り時間を求める場合を示す。節３１の開始から対象の用語”team”まで、各単語または言語ユニットに対して、本発明の見積り手段４７が単一音節単語、単語間、多音節単語、頭字語、数字、および文間の数を計算する。これらの属性のそれぞれに対して、判別された計数はそれぞれの重み４９（図４Ｂに示されている）が乗算され、これらの積の値の合計が作業テキストユニットを生成する。式１に従って、時間基準相当値定数（上記の８．８９８）を乗算された作業テキストユニットは開始からの経過時間を生成する。式２に従って、開始からの経過時間が、節３１の開始時間３：１１：２５（図示の例では）に加算され、対象の用語”team”の概算時間つまり見積り時間を生成する。

同様に、節３１内の用語”team”から間隔を空けた位置における（例えば、所望のステートメント、フレーズ、それらのサブセットの終了点における）第２のユーザ選択された単語の時間見積りが計算されてもよい。このようにして、”team”と第２のユーザ選択された単語との間で定義される、ユーザ選択された節３１の概算の開始時間および終了時間が生成される。

次に、上述したとおり、かつ図５に示されるとおり、本発明はユーザ選択された用語の算出された概算時間（節サブセットの開始時間および終了時間）を表示する。編集処理全体を通して、表示される概算時間に基づいて、節３１ごとの経過時間量をユーザは読み取ることができる。

本発明を特に好ましい実施形態に関して図示し、説明してきたが、当業者であれば、添付の特許請求の範囲に含まれる本発明の範囲から逸脱することなく、形態および細部の様々な変更が可能であることは理解されるであろう。

例えば、本発明はグローバルネットワーク７０の代わりに、ローカルエリアネットワークまたはワイドエリアネットワークにおけるクライアントサーバ上に実装されてもよい。代わりに、上述の構成を仮定して、別の実施形態では、ビデオ編集におけるテキスト位置の本発明の時間見積りの実現を、スタンドアロン型のデスクトップまたはローカルプロセッサ上に実装してもよい。

実施形態によっては、見積り手段４７の計算における各属性に対する重み（乗数）４９は、ユーザによる調整が可能である。図５のグラフィックユーザインタフェースは、重み４９値を調整するために「ボタン」などのユーザ選択可能な手段を設けてもよい。

さらに、ソースビデオに対応するテキスト位置の上述の本発明の見積りは、ビデオ編集以外の目的に使用されてもよい。その他のビデオ処理、インデックス付け、タイトル付けなどは、テキスト位置の本発明の時間見積りの別の目的および用途の例である。

本発明の実施形態を実現できる、コンピュータネットワーク環境の概略図である。図１のネットワークのノードの１つからのコンピュータのブロック図である。本発明の実施形態を利用するビデオ編集方法および装置のフローチャートである。本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。本発明の一実施形態におけるグラフィカルユーザインタフェースの図である。

符号の説明

３１節
４７見積もり手段

Claims

ビデオデータおよびこのビデオデータに対応するオーディオのテキストトランスクリプトを有し、前記テキストトランスクリプトは１つまたは複数の節から構成されているビデオ編集システムにおける時間見積り手段であって、
前記テキストトランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値と、
対象節内の属性を計数する計数部であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する計数部と、
対象節内の前記用語のユーザ選択に応じるプロセッサルーチンであって、前記ビデオデータ内の前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する、プロセッサルーチンとを備えた時間見積り手段。
請求項１において、前記プロセッサルーチンは、
前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成し、
前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出する時間見積り手段。
請求項１において、前記計数部は、さらに、前記対象節内の属性を計数して前記テキストを基礎とした相当値を定義する、時間見積り手段。
請求項１において、前記属性には、単語、音節、頭字語、数字、二重母音および／または２つの文に挟まれた箇所が含まれる、時間見積り手段。
ビデオ編集のコンピュータシステムであって、
対象ビデオデータを受信する手段であって、この対象ビデオデータが対応するオーディオデータを含む手段と、
前記対象ビデオデータの前記対応するオーディオデータを文字起こしする手段であって、前記対応するオーディオデータの作業トランスクリプトを作成し、前記作業トランスクリプトの各部分を前記対象ビデオデータのそれぞれの対応する各部分に関連付ける手段と、
ユーザに対して前記作業トランスクリプトを表示し、前記表示された作業トランスクリプトを通じて前記対象ビデオデータの各部分のユーザ選択を可能にする手段であって、前記表示された作業トランスクリプトから各ユーザによって選択されたトランスクリプトの部分に対して、リアルタイムに、（i）前記それぞれ対応するビデオデータ部分を取得し、（ii）前記取得されたビデオデータ部分を組み合わせて、結果として得られたビデオ作品を作成し、（iii）前記表示された作業トランスクリプトとのユーザ対話中にユーザ命令を受け取ると、ユーザに結果として得られたビデオ作品を表示する手段と、
前記表示およびユーザ選択の手段に結合された時間見積り手段であって、前記ユーザ選択されたトランスクリプト部分に対応する前記オーディオデータの出現の概算時間を計算して表示する、時間見積り手段を備えたコンピュータシステム。
請求項５において、前記作業トランスクリプトは１つまたは複数の節から構成されており、
前記時間見積り手段は、
前記作業テキストトランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値と、
対象節内の属性を計数する計数部であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する計数部と、
対象節内の前記用語のユーザ選択に応じるプロセッサルーチンであって、前記ビデオデータ内の前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する、プロセッサルーチンとを備えたコンピュータシステム。
請求項６において、前記プロセッサルーチンは、
前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
前記中間結果と前記対象節のテキストベースの相当等値との乗算積を生成し、
前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出するコンピュータシステム。
請求項６において、前記計数部は、さらに、前記対象節内の属性を計数して前記テキストを基礎とした相当値を定義する、コンピュータシステム。
請求項６において、前記属性には、単語、音節、頭字語、数字、二重母音および／または２つの文に挟まれた箇所が含まれる、コンピュータシステム。
ホストコンピュータおよびこのホストコンピュータと通信するように結合された複数のユーザコンピュータから構成されたコンピュータネットワークにおける、ビデオ編集方法であって、
前記ホストコンピュータにおける対象ビデオデータを受信する工程であって、前記ビデオデータは対応するオーディオデータを含む工程と、
前記対応するオーディオデータの作業トランスクリプトを作成するように前記受信された対象ビデオデータを文字起こしする工程と、
前記作業トランスクリプトの各部分を前記対象ビデオデータのそれぞれ対応する部分に関連付ける工程と、
ユーザに対して前記作業トランスクリプトを表示し、前記表示された作業トランスクリプトを通じて前記対象ビデオデータの各部分のユーザ選択を可能にする工程であって、前記ユーザ選択が前記対象ビデオデータの各部分の順序付けを含む工程と、
前記表示された作業トランスクリプトからユーザ選択されたトランスクリプト部分に対して、前記ユーザ選択されたトランスクリプト部分に対応する前記オーディオデータの前記ビデオデータにおける出現の概算時間を計算して表示する工程と、
前記計算された出現の概算時間を、ユーザ選択されたトランスクリプト部分の開始および終了と前記対応するビデオデータとの間をユーザが相互参照できるように、表示する工程とを備えたビデオ編集方法。
請求項１０において、さらに、前記ユーザ選択されたトランスクリプト部分に対して、リアルタイムに、（i）前記それぞれ対応するビデオデータ部分を取得し、（２）前記取得されたビデオデータ部分を組み合わせて、ビデオのラフカットおよび次のビデオカットを構成し、この得られたラフカットおよび次のビデオカットがそれぞれ対応するテキストスクリプトを有する工程と、
前記ラフカットおよび次のビデオカットを、前記表示された作業トランスクリプトとのユーザ対話中に、ユーザに表示する工程とを備えた、ビデオ編集方法。
請求項１１において、さらに、前記ラフカットおよび次のビデオカットに対応する前記テキストスクリプトのそれぞれの表示を提供する工程を備えた、ビデオ編集方法。
請求項１０において、前記作業トランスクリプトが１つまたは複数の節から構成されており、
前記出現の概算時間を計算して表示する工程が、
前記作業トランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値を取得する工程と、
対象節の開始から前記対象節内のユーザ選択された用語までの対象節内の属性を計数する工程と、
前記ユーザ選択された用語のビデオデータにおける出現の概算時間を決定する工程とを有するビデオ編集方法。
請求項１３において、前記出現の概算時間を決定する工程が、
前記計数された属性を重み付けして合計して、この合計により中間結果を生成する工程と、
前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成する工程と、
前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成する工程とを有するビデオ編集方法。
請求項１３において、前記テキストを基礎とした相当値を取得する工程が、前記対象節内の前記計数された属性を利用する、ビデオ編集方法。
請求項１３において、前記属性には、単語、音節、頭字語、数字、二重母音および／または２つの文に挟まれた箇所が含まれる、ビデオ編集方法。
オーディオのテキストトランスクリプト内のテキストの時間位置を見積る方法であって、コンピュータ実装される、
前記テキストトランスクリプト内の各節について、前記節に対してテキストを基礎とした相当値を定義する工程と、
対象節内の属性を計数する工程であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する工程と、
対応するビデオデータを有するオーディオについて、前記対象節内の用語のユーザ選択に応じて、前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する工程とを備えた、時間位置の見積り方法。
請求項１７において、前記出現の概算時間を算出する工程が、
前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成し、
前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出する時間位置の見積り方法。
請求項１７において、前記計数工程が、さらに、前記対象節内の属性を係数して前記テキストを基礎とした相当値を定義する、時間位置の見積り方法。
請求項１７において、前記属性には単語、音節、頭字語、数字、二重母音および／または２つの文に挟まれた箇所が含まれる、時間位置の見積り方法。