JP2009507453A - ビデオ編集方法および装置におけるテキスト位置の時間見積もり - Google Patents

ビデオ編集方法および装置におけるテキスト位置の時間見積もり Download PDF

Info

Publication number
JP2009507453A
JP2009507453A JP2008530148A JP2008530148A JP2009507453A JP 2009507453 A JP2009507453 A JP 2009507453A JP 2008530148 A JP2008530148 A JP 2008530148A JP 2008530148 A JP2008530148 A JP 2008530148A JP 2009507453 A JP2009507453 A JP 2009507453A
Authority
JP
Japan
Prior art keywords
user
video data
text
time
transcript
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2008530148A
Other languages
English (en)
Inventor
シトマー・レオナード
オコナー・パトリック
リーバー・スティーブン・ジェイ
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
PortalVideo Inc
Original Assignee
PortalVideo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by PortalVideo Inc filed Critical PortalVideo Inc
Publication of JP2009507453A publication Critical patent/JP2009507453A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • G11B27/034Electronic editing of digitised analogue information signals, e.g. audio or video signals on discs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • G11B27/32Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier
    • G11B27/322Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording on separate auxiliary tracks of the same or an auxiliary record carrier used signal is digitally coded
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/34Indicating arrangements 

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Television Signal Processing For Recording (AREA)
  • Management Or Editing Of Information On Record Carriers (AREA)

Abstract

【課題】ビデオ編集および特にラフカットの編集を向上させる、ビデオ編集システムにおける時間見積もり手段を提供する。
【解決手段】時間見積り手段47は、ビデオデータの対応するオーディオのテキストスクリプトのトランスクリプションにおいて、メディアファイル/ビデオデータ領域内のユーザ選択された単語またはテキストユニットの時間位置を見積もる。ビデオ編集中に、時間見積り手段47はユーザ選択されたテキストの概算時間位置を算出して表示することにより、テキストスクリプト内のユーザ選択された節31ステートメントの開始および終了と、ラフカットまたは後続のビデオデータ編集作業における対応するビデオデータとの間のユーザによる相互参照を可能にする。
【選択図】図4C

Description

関連出願
本出願は、2005年9月7日出願の米国仮特許出願第60/714,950号の利益を主張するものであり、上記出願の全内容は参照により本明細書に引用したものとする。
ビデオ作成工程の初期段階では、インタビュー場面を取得し、編集ビデオの第1原案を作成する。ラフカット(rough cut:大まかなカット)すなわち第1原案の作成は、インタビュー素材を含む作成において必要な段階である。第1原案は一般に、追加のグラフィックスまたはビデオ画像を伴わずに構成され、ストーリを創作して一貫性を保って表現するためにのみ使用される。これは作成工程全体においてもっとも重要な工程の1つであり、またもっとも困難なものの1つである。ビデオ製作者にとっては、1時間番組のためのラフカットを完成するのに、25、50、100または200時間ものソーステープを処理するのが一般的である。
ラフカットを作成する現在の方法は断片的であり、非効率である。一部の製作者はインタビューのトランスクリプト(音声に対応する文字を起こしたテキストデータ)を用いて作業し、スクリプトのワード処理を行い、その後ビデオ編集を実行する。他の製作者は単にソース映像を編集システムに直接移動して、編集システムでインタビュー全体をリアルタイム表示し、候補のインタビュー部分のセットを選択し、その後編集してラフカットを作成する。
ラフカットが完成すると、通常、検討のために製作責任者または法人顧客に配布される。この時に要求される修正は、多量のビデオ編集およびテキスト編集を含む。これらの修正サイクルは極めて高コストで時間を要し、時にはプロジェクト存続の可能性を危うくする。
概して、本発明は、ビデオ編集のコンピュータ自動化方法および装置を提供することにより、従来技術の問題点に対処する。さらに詳細には、本発明はテキスト位置の時間見積りを提供する。このような時間見積りによって、ビデオ編集および特にラフカットの編集を向上させる構成が可能となる。
本発明の一実施形態において、第1原案すなわちラフカットは、以下のビデオ編集方法および装置によって作成される。トランスクリプションモジュールは対象ビデオデータを受け取る。ビデオデータは対応するオーディオ(音声)データを含む。トランスクリプションモジュールは、対象ビデオデータの対応するオーディオデータの作業トランスクリプトを作成し、トランスクリプト部分を対象ビデオデータのそれぞれ対応する部分に関連付ける。ホストコンピュータは、作業トランスクリプトの表示をユーザに提供し、表示されたトランスクリプトを通して対象ビデオデータの部分のユーザ選択を効率的に可能にする。組立要素が表示されたトランスクリプトのトランスクリプト部分のユーザ選択に応答して、それぞれ対応するビデオデータ部分を取得する。ユーザが選択した各トランスクリプト部分に対して、組立要素は、リアルタイムで、(a)それぞれ対応するビデオデータ部分を取得し、(b)取得されたビデオデータ部分を組み合わせて、その結果得られるビデオ作品を作成し、(c)その結果得られたビデオ作品のテキストスクリプトを表示する。
ホストコンピュータは、ユーザのさらなる編集のために、ラフカット(編集結果として得られたビデオ作品)および対応するテキストスクリプトをユーザに提供する。好ましくは、結果として得られたテキストスクリプトおよびラフカットは、同時に(例えば、並べて)表示される。ラフカットの表示には、最初のビデオデータまたは最初のビデオデータのメディアファイルが利用される。表示される対応テキストスクリプトは一連の節(passage)から構成される。さらに、各節は1つまたは複数のステートメント(一文)を含む。ユーザは、さらに、節内のステートメントのサブセットを選択することによって、ラフカットを編集してもよい。ビデオ編集装置によって、ユーザは節を再度定める(分割または区分する)ことができる。
節ステートメントのサブセットのユーザ選択に応じて、本発明は、ユーザ選択された節ステートメントの開始および終了のメディアファイル(最初のビデオデータ)内の対応する時間位置(例えば、経過時間のフレーム、時間、分、秒)を概算する。好ましい実施形態では、本発明は、ユーザによって選択されたテキストスクリプト内の単語(用語またはその他のテキストユニット)のメディアファイル/ビデオデータ領域における時間位置を概算する。編集作業の間、本発明は、ユーザ選択されたテキストの概算時間位置を算出および表示する。これは、ユーザが、テキストスクリプト内のユーザ選択された節ステートメントの開始および終了とラフカット内の対応するビデオデータとの間を相互参照するのに役に立つ。
メディアファイル内の時間位置とスクリプトテキスト内の対応するテキスト位置を関連付けることで、テキスト節を選択してユーザはメディアファイルを編集できる。本発明の時間見積り手段によって、任意のソースコンポーネントを選択してテキストとビデオの同時編集が可能になる。
本発明の上述およびその他の目的、特徴、および利点は、添付図面に示す本発明の好ましい実施形態の以下の詳細な説明から明らかになるであろう。図面では、同一参照符号は異なる図面においても同一部品を指す。図面は必ずしも縮尺通りでなく、本発明の原理を示すことに重点が置かれている。
以下に本発明の好ましい実施形態を説明する。
本発明はビデオまたはマルチメディア作品における音声のトランスクリプト内のテキスト位置のメディア/ビデオ時間見積りを提供する。さらに詳細には、本発明のメディア時間位置特定技術の使用法の1つは、テキスト選択によってビデオを編集し、ビデオを選択することによってテキストを編集することである。
図1は、本発明が実現されるコンピュータネットワークまたは同様のディジタル処理環境を示す。
クライアントコンピュータ/デバイス(装置)50およびサーバコンピュータ60は、アプリケーションプログラムなどを実行する、処理装置、記憶装置および入出力装置を備える。クライアントコンピュータ/デバイス50は、また、他のクライアントデバイス/プロセッサ50およびサーバコンピュータ60を含む他のコンピュータデバイスと通信ネットワーク70を介してリンクされている。通信ネットワーク70は、相互に通信するために、リモートアクセスネットワーク、グローバルネットワーク(例えばインターネット)、コンピュータの世界規模の集合、ローカルエリアもしくはワイドエリアネットワークおよびゲートウェイの一部であってもよい。これらのネットワークなどは、現在のところ、それぞれのプロトコル(TCP/IP、Bluetooth他)を使用する。他の、電子デバイス/コンピュータネットワークアーキテクチャも適している。
図2は、図1のコンピュータシステムにおけるコンピュータ(例えばクライアントプロセッサ/デバイス50またはサーバコンピュータ60)の内部構造図である。各コンピュータ50、60はシステムバス79を内蔵する。このバスは、コンピュータもしくは処理システムのコンポーネント間のデータ転送のために使用されるハードウェア線のセットである。バス79は基本的に、コンピュータシステム内の様々な構成要素(例えば、プロセッサ、ディスク記憶、メモリ、入力/出力ポート、ネットワークポートなど)を接続する共有のパイプ(ルート)であって、要素間の情報の転送を可能にする。コンピュータ50、60への様々な入力および出力デバイス(例えば、キーボード、マウス、ディスプレイ、プリンタ、スピーカなど)を接続するために、I/Oデバイスインタフェース82がシステムバス79に結合されている。ネットワークインタフェース86によって、コンピュータは、ネットワーク(例えば図1のネットワーク70)に接続された様々な他のデバイスに接続できる。メモリ90は、本発明の実施形態を実装するために使用されるコンピュータソフトウェア命令(例えば、プログラムルーチン92およびデータ94、詳細は後述)に対して揮発性記憶を提供する。ディスク記憶95は、本発明の実施形態を実現するために使用される、コンピュータソフトウェア命令92およびデータ94に対して不揮発性記憶を提供する。中央プロセッサユニット84もまたシステムバス79に接続され、コンピュータ命令を実行する。
後に明らかにされるとおり、データ94はソースビデオデータファイル(またはメディアファイル)11および対応する作業トランスクリプトファイル13(および関連するテキストスクリプトファイル17)を含む。作業トランスクリプトファイル13は、各ビデオデータ11のオーディオトラックのテキストトランスクリプションである。
一実施形態では、プロセッサルーチン92およびデータ94は、本発明のシステムに対してソフトウェア命令の少なくとも一部を提供する、コンピュータ可読媒体(例えば、1つまたは複数のDVD−ROM、CD−ROM、フロッピー(登録商標)ディスク、テープなどの取外し可能記憶媒体)を含むコンピュータプログラム製品(総称して参照符号92で示す)である。コンピュータプログラム製品92は、技術的に公知の、任意の適したソフトウェアインストール手順によりインストールされる。別の実施形態では、ソフトウェア命令の少なくとも一部は、ケーブル、通信および/または無線接続を介してダウンロードされてもよい。別の実施形態では、本発明のプログラムは、伝搬媒体(例えば、電波、赤外線波、レーザー波、音波、またはインターネットもしくは他のネットワークなどのグローバルネットワークを介して伝搬される電波)の伝搬信号に埋め込まれたコンピュータプログラム伝搬信号製品107である。このような搬送媒体または搬送信号は、本発明のルーチン/プログラム92に対するソフトウェア命令の少なくとも一部を提供する。
別の実施形態では、伝搬信号は、伝搬媒体上を搬送されるアナログ搬送波またはディジタル信号である。例えば、伝搬信号は、グローバルネットワーク(例えばインターネット)、電気通信ネットワークまたは他のネットワークを介して伝搬されるディジタル化信号であってもよい。一実施形態では、伝搬信号は、例えば数ミリ秒、数秒、数分の期間またはこれらよりも長い期間にわたりネットワークを介してパケットで送信されるソフトウェアアプリケーションの命令のような、ある期間にわたり伝搬媒体を介して転送される信号である。別の実施形態では、コンピュータプログラムプロダクト92のコンピュータ可読媒体は、コンピュータプログラム伝搬信号製品について上述したとおり、コンピュータシステム50が、例えば、伝搬媒体を受信して伝搬媒体に埋め込まれた伝搬信号を識別することによって、受信して読み取ることができる、伝搬媒体である。
一実施形態では、ホストサーバコンピュータ60は、ビデオ編集に対するポータル(サービスおよび手段)を提供し、ルーチン92は本発明のビデオ編集システムを実装する。ユーザ(クライアントコンピュータ50)は、インターネットのようなグローバルコンピュータネットワーク70を介して本発明のビデオ編集ポータルにアクセスする。プログラム92は、好ましくはホストコンピュータ60によって実行され、ユーザが(クライアントコンピュータ50を介して)所望のビデオデータを編集できるようにするユーザ対話式ルーチンである。図3は、グローバルコンピュータネットワーク70環境におけるビデオ編集サービスおよび手段についてのこのようなプログラム92の1つを示している。
本発明を実現するのに、その他のコンピュータアーキテクチャおよび構成(ネットワークまたはスタンドアロン)も適合する。
図3を参照して、最初のステップ100では、ユーザは、ユーザコンピュータ50を介して、本発明のポータルすなわちホストコンピュータ60に接続する。接続されると、ホストコンピュータ60はセッションを初期化し、ユーザのIDなどを確認する。
次に(ステップ101)、ホストコンピュータ60は、ユーザ命令により転送された(アップロードまたは別の方法で提供された)入力すなわち対象ビデオデータ11を受信する。対象ビデオデータ11は、対応するオーディオデータ、マルチメディアなどを含み、これらはメディアファイルに記憶されてもよい。これに応答して(ステップ102)、ホストコンピュータ60は、受信されたビデオデータ(メディアファイル)11の対応するオーディオデータを文字に起こし(transcribe)、作業トランスクリプト13を作成する、トランスクリプションモジュール23を使用する。受信されたオーディオデータから作業トランスクリプトを作成するのに、当技術分野では一般的である音声テキスト変換技術が利用される。このようにして、作業トランスクリプト13は対象(ソース)ビデオデータ11に対応するオーディオのテキストを提供する。さらに、トランスクリプションモジュール23は、作業トランスクリプト13の各部分とそれぞれ対応する対象ビデオデータ(メディアファイル)11の各部分との間の、それぞれの関連付けを生成する。生成された関連付けは、リンク、ポインタ、参照またはその他のデータ疎結合技法として実装される。好ましい実施形態では、トランスクリプションモジュール23は、作業トランスクリプト13の各部分に、対象ビデオデータ11の各部分のソース媒体トラック、フレームおよび経過時間に対応するタイムスタンプ(コード)33を挿入する。
ホストコンピュータ60は、ユーザコンピュータ50を介してユーザに作業トランスクリプト13を表示し、ユーザインタフェース27をサポートする(ステップ104)。ステップ103では、ユーザインタフェース27によって、ユーザは、表示される作業トランスクリプト13を通して場面を追うことができ、オーディオテキスト(作業トランスクリプト)の所望の部分を選択できる。また、ユーザインタフェース27によって、ユーザは、作業トランスクリプト13の対応する部分を通して選択される(、かつその対応する部分を横に並べて閲覧される)、ソースビデオデータ11の各部分を再生できる。これにより、オーディオ画像サンプリングおよび同時のトランスクリプト13の閲覧がもたらされる。この閲覧は、オリジナルのビデオデータ11のいずれの部分をカットまたは使用するのかをユーザが判断するのに役立つ。ホストコンピュータ60は各ユーザの選択および命令に応答し、対象ビデオデータ11の対応する各部分を取得する(ステップ105)。すなわち、表示された作業トランスクリプト13のユーザ選択された部分から、ホストコンピュータの組立要素25が、(ステップ102から)以前に生成された関連付けを利用して、ユーザが選択したオーディオテキスト(作業トランスクリプト13の部分)に対応するオリジナルのビデオデータ11の各部分を判別する。
ユーザはまた、ステップ105において、選択された各トランスクリプト部分の順序すなわちシーケンス(順番)を指定し、対象ビデオデータ11の対応する各部分を順序付ける。組立要素25は、ユーザによって選択された各部分および表示された作業トランスクリプト13の順序に対応する対象ビデオデータ11のこのように判別された部分すべてを、順序付けて追加または結合する。対象ビデオデータの編集バージョン(「ラフカット」として知られている)15とこのビデオデータに対応するテキストスクリプト17とが結果として得られる。
ホストコンピュータ60は、結果として得られるビデオ作品(編集バージョンすなわちラフカット)15および対応するテキストスクリプト17を、ユーザコンピュータ50を介してユーザに表示(再生)する(ステップ108)。好ましくは、ユーザ命令を受けると、ホストコンピュータ60は、結果として得られたビデオ作品/編集(カット)バージョン15とオリジナルの作業トランスクリプト13を同時に表示する。このようにして、ユーザは、オリジナルのオーディオテキストを閲覧し、さらに編集(すなわち、対象ビデオデータ11の他の部分つまり異なる部分、または各部分の異なる順序)が望まれるか否かを判定できる。さらなる編集が望まれる場合、上述のステップ103、104、105、および108が繰り返される(ステップ109)。望まれない場合、処理はステップ110で完了する。
ラフカットすなわち編集カット15を前提として、本発明は、対応するテキストスクリプト17と、随意の、対象ソースビデオデータ11に対応するオーディオの作業トランスクリプト13との表示を使用して、オーディオ−ビデオ(音声画像)トランスクリプトに基づくビデオ編集処理を提供する。さらに、組立要素25は、作業トランスクリプト13/テキストスクリプト17部分に対応する、ユーザの選択および順序付け(シーケンシング)のラフカットおよび次のバージョン15(および各テキストスクリプト17)をリアルタイムで作成する。ユーザがラフカット15を編集するのに役立てるように、本発明(ホストコンピュータ60、プログラム92)は、ユーザが単語を選択すると、テキストスクリプト17内の単語またはその他のテキストユニットのビデオデータ11における時間位置(例えば、経過時間のフレーム、時間、分、秒)を概算する。本発明は、ユーザが編集作業をしている間(ステップ103、104、105および108を通しての間)、テキストの概算時間位置を算出して表示する。表示される概算時間位置が、テキストスクリプト17におけるユーザ選択された部分の開始および終了と、メディアファイル/ソースビデオデータ11内における対応するビデオ−オーディオ(画像音声)セグメントとの間の相互参照の表示を提供する。
一実施形態では、バーインジケータ(bar indicator)75が、全体ビデオデータ11のうち、ユーザ選択されたテキスト部分39に相当するビデオデータの部分を、グラフィック表示する。概算時間位置は、バーインジケータ75の一端に関連付けられた概算開始時間およびバーインジケータ75の他端に関連付けられた概算終了時間と共に表示される。これは図5に示されている。
好ましくは、バーグラフィックインタフェースは両方向に作用する。すなわち、ユーザがバーインジケータ75を操作(ドラッグ/スライド)してビデオデータ11の所望の部分を指定すると、本発明(ホストコンピュータ60、プログラム92)は、対応する結果として得られるテキストスクリプト17を強調表示するかまたは指し示す。ユーザが作業テキストスクリプト17のテキスト部分39を選択すると、本発明は、ユーザ選択されたテキスト部分に相当するように、バーインジケータ75を拡大(移動およびサイズ変更)する。
上述の内容は、テキストスクリプト17の単語(ユニット)および文ユニットとビデオデータ(メディアファイル)11における時間位置との間のマッピングを作成して運用することによって達成される。好ましい実施形態におけるテキストスクリプト17内の時間位置に対する時間見積り(ビデオデータ11領域内)が、図4A〜4Cに示されている。作業テキストスクリプト17は一連の節(passage)31a、31b,…,31nから構成される。各節31は、システムデータ94(図2)におけるレコードまたは同様のデータ構造によって表され、対応するビデオ化されるインタビュー(場面)の1つまたは複数のステートメント(一文)を含む。各節31は、インタビュー(場面)のオリジナルのメディアキャプチャの開始時間、終了時間および/または経過時間によって、タイムスタンプ33のインデックス付けがされている(、または時間コード化されている)。好ましくは、節31の経過時間または継続時間はフレーム数単位である。
所与の節31に対して(図4B)、本発明の時間見積り手段47は、節のステートメント内の単語の数、単語間の位置(2つの単語に挟まれた箇所)の数、音節の数、頭字語の数、使用(引用)される数字の数、および文間の位置(2つの文に挟まれた箇所)の数を計数する。頭字語および数字は、辞書またはデータベース参照に基づいて判別されてもよい。一実施形態では、本発明の見積り手段47は、また、二重母音の数を判別するか、または音節の数を識別するのに(母音に相関あるものなどとして)その他の方法を使用する。次に、上述の属性は、それぞれ、重み(通常、−1〜+2の範囲)を乗算される。この結果が合計され、全合計は節31についてのテキストユニットの数を提供する。
別の実施形態においては、対象の節31内の音節数を判別するのに、種々の方法が用いられてもよい。例えば、辞書参照テーブルを使用して、対象の節31内の用語(単語)を音節の数と相互参照してもよい。音節数を判別するのに、その他の手段および方法も適合する。
次に、本発明の見積り手段47は節31の時間基準相当値(定数C)を定義する。節31の時間継続33(フレーム数)は、節31について上述したように算出されたテキストユニットの数で除算される。この結果の商の値が、基準時間相当値定数Cの値として使用される。
図4Bに示される例においては、節31内の単一音節単語の数は11、単語間の数は15、多音節単語の数は7、頭字語の数は3、テキスト内で引用された数字の数は4である。
この例では、文間位置(2つの文に挟まれた箇所)は1である。この計算は、図4Bにおいて数字表示およびグラフィック表示されている。図4Bの文マップは、単語シーケンス(文)順番におけるグラフィック計算を示す。図において、各属性に対する重み49が「係数」の欄に示されている。別の実施形態では、二重母音に対する重みは負値であり、テキストユニットのいずれの二重計算も有効に排除する。次に、この例におけるテキストユニットの全数は、(11×0.9)+(15×1.1)+(7×0.9)+(3×0.9)+(4×0.9)+(1×1.3)=40.3として算出される。
図示された節31の継続時間は、図4Bの参照符号33で示されるとおり362フレームである。362フレームを算出された40.3テキストユニットで除算すると、8.898フレーム/ユニットの基準時間相当値(以下で定数Cとして用いられる)である。
次に、算出された基準時間相当値定数を以下とおり用いて、ユーザ選択された単語テキストスクリプト17の出現の見積り時間(ソースビデオデータ11における出現時間の見積り)を算出する。
開始からの経過時間は=テキストユニット×C (式1)
ここで、Cは既に定義した時間基準相当値定数である。
節31の開始時間+開始からの経過時間=テキスト位置の見積り時間 (式2)
図4Cは、テキストスクリプト17の節31の例における用語”team”の媒体時間(ビデオデータ11領域)の見積り時間を求める場合を示す。節31の開始から対象の用語”team”まで、各単語または言語ユニットに対して、本発明の見積り手段47が単一音節単語、単語間、多音節単語、頭字語、数字、および文間の数を計算する。これらの属性のそれぞれに対して、判別された計数はそれぞれの重み49(図4Bに示されている)が乗算され、これらの積の値の合計が作業テキストユニットを生成する。式1に従って、時間基準相当値定数(上記の8.898)を乗算された作業テキストユニットは開始からの経過時間を生成する。式2に従って、開始からの経過時間が、節31の開始時間3:11:25(図示の例では)に加算され、対象の用語”team”の概算時間つまり見積り時間を生成する。
同様に、節31内の用語”team”から間隔を空けた位置における(例えば、所望のステートメント、フレーズ、それらのサブセットの終了点における)第2のユーザ選択された単語の時間見積りが計算されてもよい。このようにして、”team”と第2のユーザ選択された単語との間で定義される、ユーザ選択された節31の概算の開始時間および終了時間が生成される。
次に、上述したとおり、かつ図5に示されるとおり、本発明はユーザ選択された用語の算出された概算時間(節サブセットの開始時間および終了時間)を表示する。編集処理全体を通して、表示される概算時間に基づいて、節31ごとの経過時間量をユーザは読み取ることができる。
本発明を特に好ましい実施形態に関して図示し、説明してきたが、当業者であれば、添付の特許請求の範囲に含まれる本発明の範囲から逸脱することなく、形態および細部の様々な変更が可能であることは理解されるであろう。
例えば、本発明はグローバルネットワーク70の代わりに、ローカルエリアネットワークまたはワイドエリアネットワークにおけるクライアントサーバ上に実装されてもよい。代わりに、上述の構成を仮定して、別の実施形態では、ビデオ編集におけるテキスト位置の本発明の時間見積りの実現を、スタンドアロン型のデスクトップまたはローカルプロセッサ上に実装してもよい。
実施形態によっては、見積り手段47の計算における各属性に対する重み(乗数)49は、ユーザによる調整が可能である。図5のグラフィックユーザインタフェースは、重み49値を調整するために「ボタン」などのユーザ選択可能な手段を設けてもよい。
さらに、ソースビデオに対応するテキスト位置の上述の本発明の見積りは、ビデオ編集以外の目的に使用されてもよい。その他のビデオ処理、インデックス付け、タイトル付けなどは、テキスト位置の本発明の時間見積りの別の目的および用途の例である。
本発明の実施形態を実現できる、コンピュータネットワーク環境の概略図である。 図1のネットワークのノードの1つからのコンピュータのブロック図である。 本発明の実施形態を利用するビデオ編集方法および装置のフローチャートである。 本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。 本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。 本発明の一実施形態におけるテキスト位置の時間見積りの概略図である。 本発明の一実施形態におけるグラフィカルユーザインタフェースの図である。
符号の説明
31 節
47 見積もり手段

Claims (20)

  1. ビデオデータおよびこのビデオデータに対応するオーディオのテキストトランスクリプトを有し、前記テキストトランスクリプトは1つまたは複数の節から構成されているビデオ編集システムにおける時間見積り手段であって、
    前記テキストトランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値と、
    対象節内の属性を計数する計数部であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する計数部と、
    対象節内の前記用語のユーザ選択に応じるプロセッサルーチンであって、前記ビデオデータ内の前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する、プロセッサルーチンとを備えた時間見積り手段。
  2. 請求項1において、前記プロセッサルーチンは、
    前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
    前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成し、
    前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出する時間見積り手段。
  3. 請求項1において、前記計数部は、さらに、前記対象節内の属性を計数して前記テキストを基礎とした相当値を定義する、時間見積り手段。
  4. 請求項1において、前記属性には、単語、音節、頭字語、数字、二重母音および/または2つの文に挟まれた箇所が含まれる、時間見積り手段。
  5. ビデオ編集のコンピュータシステムであって、
    対象ビデオデータを受信する手段であって、この対象ビデオデータが対応するオーディオデータを含む手段と、
    前記対象ビデオデータの前記対応するオーディオデータを文字起こしする手段であって、前記対応するオーディオデータの作業トランスクリプトを作成し、前記作業トランスクリプトの各部分を前記対象ビデオデータのそれぞれの対応する各部分に関連付ける手段と、
    ユーザに対して前記作業トランスクリプトを表示し、前記表示された作業トランスクリプトを通じて前記対象ビデオデータの各部分のユーザ選択を可能にする手段であって、前記表示された作業トランスクリプトから各ユーザによって選択されたトランスクリプトの部分に対して、リアルタイムに、(i)前記それぞれ対応するビデオデータ部分を取得し、(ii)前記取得されたビデオデータ部分を組み合わせて、結果として得られたビデオ作品を作成し、(iii)前記表示された作業トランスクリプトとのユーザ対話中にユーザ命令を受け取ると、ユーザに結果として得られたビデオ作品を表示する手段と、
    前記表示およびユーザ選択の手段に結合された時間見積り手段であって、前記ユーザ選択されたトランスクリプト部分に対応する前記オーディオデータの出現の概算時間を計算して表示する、時間見積り手段を備えたコンピュータシステム。
  6. 請求項5において、前記作業トランスクリプトは1つまたは複数の節から構成されており、
    前記時間見積り手段は、
    前記作業テキストトランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値と、
    対象節内の属性を計数する計数部であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する計数部と、
    対象節内の前記用語のユーザ選択に応じるプロセッサルーチンであって、前記ビデオデータ内の前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する、プロセッサルーチンとを備えたコンピュータシステム。
  7. 請求項6において、前記プロセッサルーチンは、
    前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
    前記中間結果と前記対象節のテキストベースの相当等値との乗算積を生成し、
    前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出するコンピュータシステム。
  8. 請求項6において、前記計数部は、さらに、前記対象節内の属性を計数して前記テキストを基礎とした相当値を定義する、コンピュータシステム。
  9. 請求項6において、前記属性には、単語、音節、頭字語、数字、二重母音および/または2つの文に挟まれた箇所が含まれる、コンピュータシステム。
  10. ホストコンピュータおよびこのホストコンピュータと通信するように結合された複数のユーザコンピュータから構成されたコンピュータネットワークにおける、ビデオ編集方法であって、
    前記ホストコンピュータにおける対象ビデオデータを受信する工程であって、前記ビデオデータは対応するオーディオデータを含む工程と、
    前記対応するオーディオデータの作業トランスクリプトを作成するように前記受信された対象ビデオデータを文字起こしする工程と、
    前記作業トランスクリプトの各部分を前記対象ビデオデータのそれぞれ対応する部分に関連付ける工程と、
    ユーザに対して前記作業トランスクリプトを表示し、前記表示された作業トランスクリプトを通じて前記対象ビデオデータの各部分のユーザ選択を可能にする工程であって、前記ユーザ選択が前記対象ビデオデータの各部分の順序付けを含む工程と、
    前記表示された作業トランスクリプトからユーザ選択されたトランスクリプト部分に対して、前記ユーザ選択されたトランスクリプト部分に対応する前記オーディオデータの前記ビデオデータにおける出現の概算時間を計算して表示する工程と、
    前記計算された出現の概算時間を、ユーザ選択されたトランスクリプト部分の開始および終了と前記対応するビデオデータとの間をユーザが相互参照できるように、表示する工程とを備えたビデオ編集方法。
  11. 請求項10において、さらに、前記ユーザ選択されたトランスクリプト部分に対して、リアルタイムに、(i)前記それぞれ対応するビデオデータ部分を取得し、(2)前記取得されたビデオデータ部分を組み合わせて、ビデオのラフカットおよび次のビデオカットを構成し、この得られたラフカットおよび次のビデオカットがそれぞれ対応するテキストスクリプトを有する工程と、
    前記ラフカットおよび次のビデオカットを、前記表示された作業トランスクリプトとのユーザ対話中に、ユーザに表示する工程とを備えた、ビデオ編集方法。
  12. 請求項11において、さらに、前記ラフカットおよび次のビデオカットに対応する前記テキストスクリプトのそれぞれの表示を提供する工程を備えた、ビデオ編集方法。
  13. 請求項10において、前記作業トランスクリプトが1つまたは複数の節から構成されており、
    前記出現の概算時間を計算して表示する工程が、
    前記作業トランスクリプト内の各節について、前記節に対して定義されるテキストを基礎とした相当値を取得する工程と、
    対象節の開始から前記対象節内のユーザ選択された用語までの対象節内の属性を計数する工程と、
    前記ユーザ選択された用語のビデオデータにおける出現の概算時間を決定する工程とを有するビデオ編集方法。
  14. 請求項13において、前記出現の概算時間を決定する工程が、
    前記計数された属性を重み付けして合計して、この合計により中間結果を生成する工程と、
    前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成する工程と、
    前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成する工程とを有するビデオ編集方法。
  15. 請求項13において、前記テキストを基礎とした相当値を取得する工程が、前記対象節内の前記計数された属性を利用する、ビデオ編集方法。
  16. 請求項13において、前記属性には、単語、音節、頭字語、数字、二重母音および/または2つの文に挟まれた箇所が含まれる、ビデオ編集方法。
  17. オーディオのテキストトランスクリプト内のテキストの時間位置を見積る方法であって、コンピュータ実装される、
    前記テキストトランスクリプト内の各節について、前記節に対してテキストを基礎とした相当値を定義する工程と、
    対象節内の属性を計数する工程であって、前記対象節の開始から前記対象節内のユーザ選択された用語までの属性を計数する工程と、
    対応するビデオデータを有するオーディオについて、前記対象節内の用語のユーザ選択に応じて、前記ユーザ選択された用語のビデオデータにおける出現の概算時間を、前記計数された属性および前記対象節のテキストを基礎とした相当値に相関があるとして算出する工程とを備えた、時間位置の見積り方法。
  18. 請求項17において、前記出現の概算時間を算出する工程が、
    前記計数された属性を重み付けして合計して、この合計により中間結果を生成し、
    前記中間結果と前記対象節のテキストを基礎とした相当値との乗算積を生成し、
    前記生成された乗算積を概算経過時間として用い、前記生成された乗算積を前記対象節の開始時間に加算して、前記ビデオデータ内の前記ユーザ選択された用語の出現の概算時間を生成して、前記出現の概算時間を算出する時間位置の見積り方法。
  19. 請求項17において、前記計数工程が、さらに、前記対象節内の属性を係数して前記テキストを基礎とした相当値を定義する、時間位置の見積り方法。
  20. 請求項17において、前記属性には単語、音節、頭字語、数字、二重母音および/または2つの文に挟まれた箇所が含まれる、時間位置の見積り方法。
JP2008530148A 2005-09-07 2006-09-05 ビデオ編集方法および装置におけるテキスト位置の時間見積もり Pending JP2009507453A (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US71495005P 2005-09-07 2005-09-07
PCT/US2006/034619 WO2007030481A2 (en) 2005-09-07 2006-09-05 Time approximation for text location in video editing method and apparatus

Publications (1)

Publication Number Publication Date
JP2009507453A true JP2009507453A (ja) 2009-02-19

Family

ID=37729874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008530148A Pending JP2009507453A (ja) 2005-09-07 2006-09-05 ビデオ編集方法および装置におけるテキスト位置の時間見積もり

Country Status (5)

Country Link
US (1) US20070061728A1 (ja)
EP (1) EP1932153A2 (ja)
JP (1) JP2009507453A (ja)
CA (1) CA2621080A1 (ja)
WO (1) WO2007030481A2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8396878B2 (en) 2006-09-22 2013-03-12 Limelight Networks, Inc. Methods and systems for generating automated tags for video files
US9015172B2 (en) 2006-09-22 2015-04-21 Limelight Networks, Inc. Method and subsystem for searching media content within a content-search service system
US8966389B2 (en) 2006-09-22 2015-02-24 Limelight Networks, Inc. Visual interface for identifying positions of interest within a sequentially ordered information encoding
CN101515278B (zh) * 2008-02-22 2011-01-26 鸿富锦精密工业(深圳)有限公司 影像存取装置及其影像存储以及读取方法
US8180644B2 (en) * 2008-08-28 2012-05-15 Qualcomm Incorporated Method and apparatus for scrolling text display of voice call or message during video display session
US20100094621A1 (en) * 2008-09-17 2010-04-15 Seth Kenvin System and Method for Assessing Script Running Time
US8302010B2 (en) * 2010-03-29 2012-10-30 Avid Technology, Inc. Transcript editor
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US9003287B2 (en) * 2011-11-18 2015-04-07 Lucasfilm Entertainment Company Ltd. Interaction between 3D animation and corresponding script
WO2014165645A1 (en) * 2013-04-03 2014-10-09 Seelbach Teknologi Llc Retrieving and reviewing depositions, trial transcripts, exhibits, videos, documents, images, audio recordings and other media on a mobile computing device in a user friendly manner
US10356022B2 (en) * 2014-07-06 2019-07-16 Movy Co. Systems and methods for manipulating and/or concatenating videos
US20170060531A1 (en) * 2015-08-27 2017-03-02 Fred E. Abbo Devices and related methods for simplified proofreading of text entries from voice-to-text dictation
US10121517B1 (en) 2018-03-16 2018-11-06 Videolicious, Inc. Systems and methods for generating audio or video presentation heat maps
US11626139B2 (en) 2020-10-28 2023-04-11 Meta Platforms Technologies, Llc Text-driven editor for audio and video editing
CN113676772B (zh) * 2021-08-16 2023-08-08 上海哔哩哔哩科技有限公司 视频生成方法及装置
CN115811632A (zh) * 2021-09-15 2023-03-17 北京字跳网络技术有限公司 一种视频处理方法、装置、设备及存储介质

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4746994A (en) * 1985-08-22 1988-05-24 Cinedco, California Limited Partnership Computer-based video editing system
JP2986345B2 (ja) * 1993-10-18 1999-12-06 インターナショナル・ビジネス・マシーンズ・コーポレイション 音声記録指標化装置及び方法
JPH0991928A (ja) * 1995-09-25 1997-04-04 Nippon Telegr & Teleph Corp <Ntt> 映像の編集方法
US5794249A (en) * 1995-12-21 1998-08-11 Hewlett-Packard Company Audio/video retrieval system that uses keyword indexing of digital recordings to display a list of the recorded text files, keywords and time stamps associated with the system
US6172675B1 (en) * 1996-12-05 2001-01-09 Interval Research Corporation Indirect manipulation of data using temporally related data, with particular application to manipulation of audio or audiovisual data
EP0899737A3 (en) * 1997-08-18 1999-08-25 Tektronix, Inc. Script recognition using speech recognition
DE19740119A1 (de) * 1997-09-12 1999-03-18 Philips Patentverwaltung System zum Schneiden digitaler Video- und Audioinformationen
US6336093B2 (en) * 1998-01-16 2002-01-01 Avid Technology, Inc. Apparatus and method using speech recognition and scripts to capture author and playback synchronized audio and video
US6603921B1 (en) * 1998-07-01 2003-08-05 International Business Machines Corporation Audio/video archive system and method for automatic indexing and searching
US6442518B1 (en) * 1999-07-14 2002-08-27 Compaq Information Technologies Group, L.P. Method for refining time alignments of closed captions
US6697796B2 (en) * 2000-01-13 2004-02-24 Agere Systems Inc. Voice clip search
JP4660879B2 (ja) * 2000-04-27 2011-03-30 ソニー株式会社 情報提供装置および方法、並びにプログラム
US6505153B1 (en) * 2000-05-22 2003-01-07 Compaq Information Technologies Group, L.P. Efficient method for producing off-line closed captions
US7039585B2 (en) * 2001-04-10 2006-05-02 International Business Machines Corporation Method and system for searching recorded speech and retrieving relevant segments
US20020193895A1 (en) * 2001-06-18 2002-12-19 Ziqiang Qian Enhanced encoder for synchronizing multimedia files into an audio bit stream
GB2381638B (en) * 2001-11-03 2004-02-04 Dremedia Ltd Identifying audio characteristics

Also Published As

Publication number Publication date
EP1932153A2 (en) 2008-06-18
WO2007030481A2 (en) 2007-03-15
WO2007030481A3 (en) 2007-05-31
US20070061728A1 (en) 2007-03-15
CA2621080A1 (en) 2007-03-15

Similar Documents

Publication Publication Date Title
JP2009507453A (ja) ビデオ編集方法および装置におけるテキスト位置の時間見積もり
JP2008537856A (ja) ビデオ編集方法およびその装置
US10580457B2 (en) Efficient audio description systems and methods
US10210769B2 (en) Method and system for reading fluency training
US8862473B2 (en) Comment recording apparatus, method, program, and storage medium that conduct a voice recognition process on voice data
US8972265B1 (en) Multiple voices in audio content
US7054817B2 (en) User interface for speech model generation and testing
US6181351B1 (en) Synchronizing the moveable mouths of animated characters with recorded speech
US10803851B2 (en) Method and apparatus for processing speech splicing and synthesis, computer device and readable medium
US8086457B2 (en) System and method for client voice building
US6915258B2 (en) Method and apparatus for displaying and manipulating account information using the human voice
JP2007318438A (ja) 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
CN109389427A (zh) 问卷推送方法、装置、计算机设备和存储介质
CN112995736A (zh) 语音字幕合成方法、装置、计算机设备及存储介质
US8660845B1 (en) Automatic separation of audio data
WO2018120820A1 (zh) 一种演示文稿的制作方法和装置
KR20210050410A (ko) 영상 컨텐츠에 대한 합성음 실시간 생성에 기반한 컨텐츠 편집 지원 방법 및 시스템
JPH06274533A (ja) マルチメデイア提示内で音声的サーチ・パターンを使用するためのシステム及びその方法
JP2006251042A (ja) 情報処理装置、情報処理方法およびプログラム
JP3234083B2 (ja) 検索装置
JP2897701B2 (ja) 効果音検索装置
WO2019073668A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4311710B2 (ja) 音声合成制御装置
JP6619072B2 (ja) 音合成装置、音合成方法、及びそのプログラム
JP2001202082A (ja) 映像信号編集装置および方法