JP6150405B2 - メディアにキャプションを付けるシステム及び方法 - Google Patents

メディアにキャプションを付けるシステム及び方法 Download PDF

Info

Publication number
JP6150405B2
JP6150405B2 JP2015552622A JP2015552622A JP6150405B2 JP 6150405 B2 JP6150405 B2 JP 6150405B2 JP 2015552622 A JP2015552622 A JP 2015552622A JP 2015552622 A JP2015552622 A JP 2015552622A JP 6150405 B2 JP6150405 B2 JP 6150405B2
Authority
JP
Japan
Prior art keywords
caption
media
annotation
user
language
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2015552622A
Other languages
English (en)
Other versions
JP2016509408A (ja
Inventor
ポーンプラシツァカル,ナッタナート
リー,サンジン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Viki Inc
Original Assignee
Viki Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Viki Inc filed Critical Viki Inc
Publication of JP2016509408A publication Critical patent/JP2016509408A/ja
Application granted granted Critical
Publication of JP6150405B2 publication Critical patent/JP6150405B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0484Interaction techniques based on graphical user interfaces [GUI] for the control of specific functions or operations, e.g. selecting or manipulating an object, an image or a displayed text element, setting a parameter value or selecting a range
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/02Editing, e.g. varying the order of information signals recorded on, or reproduced from, record carriers
    • G11B27/031Electronic editing of digitised analogue information signals, e.g. audio or video signals
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09GARRANGEMENTS OR CIRCUITS FOR CONTROL OF INDICATING DEVICES USING STATIC MEANS TO PRESENT VARIABLE INFORMATION
    • G09G2340/00Aspects of display data processing
    • G09G2340/12Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels
    • G09G2340/125Overlay of images, i.e. displayed pixel being the result of switching between the corresponding input pixels wherein one of the images is motion video

Description

[0001] 本発明は、概して、メディアキャプション付けの分野に関し、より具体的には、メディアキャプション付けの分野においてメディアキャプションを翻訳する新規で有用なシステム及び方法に関する。
[0002] オンライン映像ストリーミングの流行によって、人々は、世界中で創作された映像及びメディアにアクセスしている。以前では、映像は時には、1カ国又は1地域のみでの消費のために創作されていた。現在では、世界中の人々が、他国で作られたコンテンツに触れて当該コンテンツを消費している。インターネットが広範な分配を可能にするにも関わらず、メディアコンテンツに対するアクセスは言語の壁を通して依然として制限されている可能性がある。対象の視聴者によって理解される言語にメディアが翻訳されない場合、映像が視聴される可能性は低い。メディアを別の言語に翻訳するには多くの時間が必要でありまた困難なプロセスであり得る。ある翻訳が捉えることができない言語のニュアンスがたくさんある。従って、キャプション付けの分野において、メディアキャプションを翻訳する新規で有用なシステム及び方法を創出することが求められている。本発明は、そうした新規で有用なシステム及び方法を提供する。
図1は、システムのメディアキャプション付けの一変形例の概略図である。 図2は、システムのメディアキャプション付けの第2変形例の概略図である。 図3は、システムのメディアセグメント化の変形例の概略図である。 図4は、システムのメディアセグメント化の変形例の概略図である。 図5は、システムのメディアセグメント化の変形例の概略図である。 図6は、メディアにキャプションを付ける方法のフローチャートである。 図7は、メディアにキャプションを付ける方法の一例の概略図である。 図8は、第1メディアセグメントに関するキャプションを選択するために注釈を処理する一例の概略図である。 図9は、一変形例の方法の概略図である。 図10は、複数のユーザによる複数のメディアセグメントの共同編集を含む、一変形例の方法の概略図である。 図11は、提示されたメディアを動的に更新することを含む、一変形例の方法の概略図である。 図12Aは、多言語でキャプションを生成することを含む第1及び第2変形例の方法の概略図である。 図12Bは、多言語でキャプションを生成することを含む第1及び第2変形例の方法の概略図である。 図13は、メディアをセグメント化する方法のフローチャートである。 図14Aは、第1ユーザがメディアをセグメント化して第2ユーザがメディアにキャプションを付ける、一変形例の方法の概略図である。 図14Bは、第1ユーザがメディアをセグメント化して第2ユーザがメディアにキャプションを付ける、一変形例の方法の概略図である。 図15は、一変形例の方法の概略図である。 図16は、メディアセグメントの音声及び映像とは別個の第1注釈を受信する一例である。 図17Aは、メディアセグメントの音声及び映像とは別個の第2注釈を受信する第1例及び第2例である。 図17Bは、メディアセグメントの音声及び映像とは別個の第2注釈を受信する第1例及び第2例である。
発明の詳細な説明
[0018] 本発明の好適な実施形態の以下の説明は、本発明をそれら好適な実施形態に限定することを意図しておらず、当業者が本発明を行って使用することができるようにすることを意図している。
1.共同メディアキャプション付け及びセグメント化のためのシステム
[0019] 図1に示すように、メディアキャプションを生成するシステムは、キャプションストリームインターフェース114に制御可能に結合されたメディアプレーヤ112を含むメディアインターフェース110を含んでもよい。このシステムは、容易かつ効果的なインターフェースを形成してメディアファイルに関するキャプションを翻訳するように機能する。システムは、複数のアカウント実体の参加を通じてメディアファイルに多言語で字幕を付けるのに通常は使用される。メディアプレーヤ112でのメディアの再生は、キャプションストリームインターフェース114と協働して行われることが好ましい。システムは、1以上のセットのキャプションを生成することが好ましく、各キャプションは、異なる言語のものであることが好ましい。キャプションのセットは、(例えば図1に示すように)メディアから生成されてもよく、又は、(例えば図2に示すように)別のキャプションセットから生成(例えば翻訳)されてもよい。初期のキャプションは、メディアと組み合わせた参照として使用され、少なくとも第2セットのキャプションに関する翻訳/キャプションを収集する。システムは、複数アカウントのオンラインプラットフォーム130を通じて字幕付けを可能にすることが好ましい。オンラインプラットフォームは、ウェブサイト又は他の適切なアプリケーションを通じてアクセス可能なネットワークアクセス可能サービスであることが好ましい。複数のユーザが字幕付けに参加することができるようにすることによって、メディアに字幕付けすることの品質、効率及びスケールを向上させることができる。システムは、映像ストリーミングプラットフォームで実施されてもよい。通常のアプリケーションでは、映像ストリーミングプラットフォームは、多数の映像及び世界的に又は文化的に多様な視聴率を有することが可能であり、従って、多様な視聴者に対してアピールするために多数の映像の現地語化/翻訳を必要とする。従業員、ボランティア、たまたま視聴している視聴者、かなりの言語知識を有する視聴者、限られた言語知識しか有しない視聴者がすべて、メディアのキャプション付け及び/又は翻訳に参加することができる。好適な一実施形態では、キャプションストリームインターフェース114は、通常の映像プレーヤの選択可能な動作モードとして構成されてもよい。映像を観ている時、視聴者は、キャプションストリームインターフェース114を選択的に起動させることができ、かつ、メディアの全部又は一部の翻訳に寄与することができる。
[0020] インターフェース110は、メディアの消費のために構成され、かつ、映像の少なくとも1つのセグメントをキャプチャするために構成されたインターフェースである。インターフェース110は、ウェブアプリケーション技術を通じて実装されることが好ましく、また、ウェブサイト内でレンダリングされることが可能である。インターフェース110は、代替的に、パーソナルコンピュータデバイス、モバイルコンピュータデバイス又は任意の適切なデバイス上で動作可能なネイティブアプリケーションコードを通じて実装されることが可能である。上述したように、インターフェース110は、キャプションストリームインターフェース114に制御可能に結合された少なくともメディアプレーヤ112を含むことが好ましい。
[0021] メディアプレーヤ112は、ユーザが消費するためのメディアを再生するように機能する。メディアプレーヤ112は、例えば再生/一時停止ボタン、早送りボタン、巻戻しボタン、次チャプタボタン、前チャプタボタン、ボリューム調節、再生進行バー、再生速度調節、メディアオプションメニュー及び/又は任意の適切なメディア調節などの従来のメディアプレーヤ制御を含むことが好ましい。メディアプレーヤは、映像ファイルを再生し、オペレーティングシステムによって供給される音声チャネルを通じて音声を出力する映像プレーヤであることが好ましい。メディアプレーヤ112は、図1に示すキャプションストリームインターフェース114に隣接していることが好ましいが、メディアプレーヤ112及びキャプションストリームインターフェース114は、代替的に、任意の適切な位置レイアウト又はナビゲーションレイアウトで配列及びレンダリングされてもよい。
[0022] キャプションストリームインターフェース114は、メディアセグメントにキャプションを付けるためのインターフェースを提供するように機能する。キャプションストリームインターフェースは、複数のキャプション入力115のスクロール可能なリスト表示であることが好ましい。キャプション入力115は、キャプション入力116を含むことが好ましく、また、(例えば異なる言語の)少なくとも1つの参考キャプションを含んでもよい。キャプション入力115はメディアセグメントに関連付けられることが好ましい。メディアセグメントは、メディアの特定の時間ウィンドウに関連付けられて設定キャプションコンテンツ(例えばスピーチの翻字及び/又は翻訳)を有するキャプションセットの一部であることが好ましい。キャプション入力116はさらに、カスタマイズされたキャプション位置決め、書式設定及び他の適切なキャプションの態様を可能にすることができる。キャプション入力115はさらに、キャプション採点、フラグ立て、コメント付け、編集、批評、又は、キャプション付けに関連付けられた任意の適切な動作を可能にするための他のユーザインターフェースコンポーネントを含んでもよい。キャプションストリームスクロール位置及びキャプション入力選択はメディアプレーヤ112に制御可能に結合されることが好ましい。キャプションストリームインターフェース114は、メディアの現在の再生位置のキャプション入力を示すためにスクロールすることが好ましく、また反対に、メディアの再生位置は、キャプションストリームインターフェース114の現在のスクロール位置又は現在選択されているキャプション入力115に対応するために変化してもよい。キャプションストリームインターフェース114は、追加的に、多くのモードで選択的に表示されてもよい。第1モードでは、キャプションストリームインターフェース114は実質的に非表示にされることが可能であり、また、メディアプレーヤ112はフレーム内に全幅で表示される。第2モードでは、フレーム/ウィンドウは、キャプションストリームインターフェース114及びメディアプレーヤ112の両方を実質的に見ることができ、また、その両方が実質的に完全に機能するように、キャプションストリームインターフェース114及びメディアプレーヤ112の間で分割される。第3モードでは、キャプションストリームインターフェース114は全フレーム/ウィンドウモードで表示されてもよい。第3モードでは、メディアプレーヤは、非表示にされるか、又は、実質的に小さなウィンドウ(例えば400×400ウィンドウ未満)で再生されてもよい。第3モードはさらに、例えばスペル/文法チェック、用語集、チャットウィンドウ、修正履歴、又は他のツールなどの他のキャプション編集ツールを可能にすることができる。任意の適切な数の視聴モード及び特徴構成を代替的に用いてもよい。
[0023] システムはさらにキャプションファイル120を含むことが好ましい。キャプションファイルはデータオブジェクトであってもよく、又は代替的に、データモデルで特徴付けられてもよい。キャプションファイル120は、メディアファイルに関する少なくとも1セットのキャプションを特徴付けるように構成されることが好ましい。好ましくは少なくとも1つの参考キャプション及び/又は翻訳されたキャプションがキャプションファイル120に含まれる。キャプションは、複数のメディアセグメントに分割されることが好ましいが、代替的に、開始時間、終了時間、映像フレーム、キーフレーム及び/又はシーンに各々関連付けられたキャプションのリストを含んでもよい。メディアセグメントは、別のメディア(例えば映像)に対して又は別のメディア上にキャプションテキストを表示するように同期される、開始時間と終了時間との間のメディアの一部であることが好ましい。各メディアセグメントは、キャプションファイル120の1以上のキャプションに関連付けられることが好ましい。例えば編集履歴、投稿しているアカウント又はソース、翻訳スコア又は任意の適切なキャプション関連情報などのキャプションの他の態様は、追加的に、キャプションファイル120内で特徴付けられてもよい。キャプションファイル120は、メディア再生中のキャプションを表示すること及び/又はキャプションストリームインターフェース114を生成することに用いられてもよい。キャプションファイル120は、キャプションストリームインターフェース114内でキャプション入力115の編集を通じて形成され又は更新されてもよい。キャプションファイル120は、各メディアセグメントのタイミング及びコンテンツを特徴付けるソフトキャプション付けファイルであることが好ましい。他の変形例では、キャプションファイル120は、ハードキャプションファイル(例えば、適切な映像フレームに融合されたキャプションテキストを有する映像ファイル)であってもよく、予めレンダリングされたキャプションファイル(例えば、テキストの映像フレームが映像の先頭に重ねられてもよい)であってもよく、又は、任意の適切なフォーマットであってもよい。
[0024] 図3〜図5に示すように、システムは、追加的に、音声レイヤセグメント化インターフェース117を含んでもよい。メディアプレーヤは、音声レイヤセグメント化インターフェース117に制御可能に結合されることが好ましい。このシステムは、メディアファイルにキャプションを付けるために容易かつ効率的なインターフェースを形成するように機能する。メディアプレーヤ112でのメディアの再生は、セグメント化インターフェース117と協働して行われることが好ましい。ユーザ入力を通じて、音声の一部は、セグメント化インターフェース117でのキャプション付けのために明確に記述され、メディアプレーヤ112でキャプションが追加されてプレビューされる。システムは、メディアでのキャプションの表示のタイミングを調整するスロープロセスに対処することが好ましく、また、システムはキャプションの入力を許容する。通常、キャプション付けは最初は母国語で実行され、また、キャプションの翻訳はその後に、メディアに第2言語で字幕を付ける時に追加されてもよい。システムは、映像及び音声部分を含む映像のキャプション付けのために構成されることが好ましいが、システムは代替的に、例えば音声のみ、インタラクティブメディア他などの任意の適切な形態のメディアのために構成されてもよい。システムは、メディアのネットワーク視聴及びキャプション付けを可能にする複数アカウントのオンラインプラットフォーム130をさらに含んでもよい。オンラインプラットフォーム130は、ウェブサイト又は他の適切なアプリケーションを通じてアクセス可能なネットワークアクセス可能サービスであることが好ましい。好適な一実施形態では、システムは、通常の映像プレーヤの選択可能な動作モードとして構成されてもよい。映像を観る時、視聴者は、セグメント化インターフェース117を選択的に起動して、メディアの全体又は一部にキャプションを付けることができる。
[0025] 音声レイヤセグメント化インターフェース117は、音声信号の視覚表示及びメディアをセグメント化するための入力インターフェースである。メディアの音声信号は、メディアプレーヤ112の下部のフレームに表示されたメディアタイムフレームの関数としての波形として視覚的に表示されることが好ましい。しかしながら、音声信号は、メディアプレーヤ112に対して任意の他の適切な位置に表示されてもよい。音声信号は代替的に、例えば対話のプレゼンスの二元表示、2以上の音声チャネル、複数のスピーカチャネル、又は、任意の適切な表示などの任意の適切な形態で表示されてもよい。音声信号の視覚表示によって、キャプション付けのためのメディアセグメントの容易な識別及び選択を許容する。音声レイヤセグメント化インターフェース117は、音声レイヤのフレームに水平にわたった音声信号表示を進展させるように構成される。音声信号表示は、メディアプレーヤでのメディアの再生に同期して進められ、その結果、セグメント化インターフェース117での音声レイヤ表示は、メディアの再生位置で及び再生位置の周囲での音声の反射である。メディアプレーヤ112での映像及び音声の再生が通常は単一の再生位置でのメディア表示のみを描写するのに対して、音声信号表示は、少なくとも時間の次元に沿って音声を提示する。音声の時間表示は、現在の映像再生位置上に中心を置くことが好ましい。
[0026] 音声レイヤセグメント化インターフェース117は、追加的に、ユーザセグメント化入力を受信するために構成される。通常、ユーザ入力は、音声信号の一部の選択を許容する。選択は、メディアセグメントの時間ウィンドウ生成を定義し、メディアセグメントの開始及び終了は、音声波形の一部を強調することによって割り当てられる。通常、ユーザは、最初に開始又は終了時間マーカを記して、その後に、メディアセグメントの全時間を識別するために強調されたメディアセクションを拡張するために、マウス、タッチ入力、キーボード制御ポジショナ、又は、他の入力デバイスを用いる。セグメントインターフェース要素は、メディアセグメント記述の容易な調節のために構成されたコンポーネントを含んでもよい。追加的に又は代替的に、メディアのセグメント化及びキャプション付けの一部又は全部は、キーボードショートカットを通じて実行されてもよい。音声レイヤセグメント化インターフェース117の入力インターフェースコンポーネントは、自動的な又は半自動的なセグメント化ツールを代替的に含んでおり、また、音声レイヤのセグメントを記述するための任意の適切な代替の変形例を含んでもよい。予めセグメント化された部分は、キャプションを付けた映像の音声信号表示の進行時に適切に継続して提示される。
[0027] 好適な一実施形態では、システムは、メディアキャプション付けとの複数のアカウントの共同を運用するように機能する複数アカウントオンラインプラットフォーム130を含む。プラットフォーム130は、分散又はクラスター演算インフラストラクチャをホストとしていることが好ましい。プラットフォーム130は、ブラウザベースのウェブアプリケーションとしてインターフェース110をレンダリングするために必要な命令を通信することが好ましいが、代替的にネイティブアプリケーション内でインターフェース110をレンダリングするための命令及びデータを送達するように構成されてもよい。プラットフォーム130は、アカウント運用システムを含むことが好ましい。アカウントプラットフォーム130上のアカウントプロファイルは、言語習熟評価、キャプション入力履歴、映像視聴履歴、及び任意の適切な態様を追跡する。アカウント運用システムは、キャプションに対する変更及び編集を強制するために使用されることが可能である。
2.共同メディアキャプション付け方法
[0028] 図6、図7及び図9に示すように、メディアに共同でキャプションを付ける方法は、メディアセグメントに関するキャプションとしての第1注釈を第1ユーザから受信するステップS100と、メディアセグメントに関するキャプションとしての第2注釈を第2ユーザから受信するステップS200と、メディアセグメントに関するキャプションをユーザに提示するステップS300と、を含む。第1及び第2注釈は、同一の言語のものであることが好ましく、メディアセグメントに関するキャプションは、メディアセグメントに関する第1言語のキャプションであることが好ましい。方法は、追加的に、メディアセグメントを定義するセグメントパラメータを第3ユーザから受信することを含んでもよい。方法は、キャプションの共同創作及び改善を可能にする。メディアキャプション付け(字幕付け)及び/又はメディア分割の困難な仕事をクラウドソーシングすることによって、この方法は、消費者のためのキャプションを迅速に生成する方法を提供する。さらに、生成されたキャプションは、オンラインキャプション付けサービスのユーザが簡単に査読して任意の誤ったキャプションを編集することができるため、高品質なキャプションになる傾向にある。
[0029] さらに、第1及び第2注釈が音声言語とは異なる言語のものである場合、方法は、クラウドソースメディアのキャプション付けだけでなく、メディアを第2言語に迅速に翻訳するようにも機能する。メディアを第2言語に速やかに確実に翻訳することによって、この方法は、メディアプロバイダ(例えば、制作会社、メディアホストサービス等)が、第2言語のコンテンツを消費するユーザの他のマーケットに迅速に拡大することを可能にする。
[0030] 方法は、メディアをストリーミングするために用いられることが好ましく、キャプションは、ユーザデバイスに、映像及び音声とともにストリーミングされる。これは、新たなキャプション及び/又は編集がキャプションファイルに追加されるので、ストリーミングされたキャプションの動的更新を許容する。従って、キャプション発行者からの新たなキャプションバージョンを待つ代わりに、この方法は、メディア消費者がコンテンツを消費している際、更新されたキャプションバージョンをメディア消費者が実質的に即座に/同時に受信すること(及び理解又は文脈を深める利益を得ること)を許容する。メディアのストリーミングは、ファイル全体が送信される前にメディアが再生されることができるように、絶えず受信されるマルチメディアであり、かつ、プロバイダによって配信されている間にユーザに提示されるマルチメディアであることが好ましい。メディアは、マルチキャストプロトコルを用いてストリーミングされることが好ましいが、代替的に、任意の適切なプロトコルを用いてストリーミングされてもよい。
[0031] 方法は、メディアセグメントに関するキャプションとしての第2言語の第1注釈を第3ユーザから受信するステップを含み、第2言語は第1言語とは異なる。メディアに関する多言語でのクラウドソーシングキャプション生成によって、この方法は、消費者のための複数のキャプション言語オプションを速やかかつ確実に提供する。
[0032] 方法は、ウェブサイト上のメディアにキャプションを付けるために実行されることが好ましいが、代替的に、ネイティブアプリケーション又は任意の他の適切なインターフェースで用いられてもよい。方法は、ストリーミングされたメディアにキャプションを付けるために用いられることが好ましく、メディアは、オンラインメディアプロバイダからキャプション付けデバイスにストリーミングされる。しかしながら、方法は、記憶されたメディアにキャプションを付けるために用いられるか、又は、任意の他の適切な形態のメディアにキャプションを付けるために用いられてもよい。メディアは、例えば映画、テレビ番組又はアニメーションなどの映像であることが好ましいが、音声、番組間のつなぎ、スクリーンキャスト、インタラクティブメディア及び/又は任意の適切なメディアに用いられてもよい。メディアは、録画されたメディアであることが好ましいが、代替的にライブのメディア(例えばイベントの生放送)であってもよい。方法は、メディアと同一の言語への映像のキャプション付けに用いられるか、又は代替的に、少なくとも第2言語でのメディアへの字幕付けに用いられてもよい。キャプション付けは、話された言葉に関して実行されることが好ましいが、代替的に、テキストの翻訳、音響効果のような音、音楽、補足情報の描写、及び/又は、キャプション付けの任意の適切な使用に用いられてもよい。
[0033] メディアは、メディアタイムラインに沿って同期される映像ファイル及び音声ファイルを含むことが好ましい。映像ファイルは、複数の映像フレームを含むことが好ましいが、代替的に、複数のキーフレームを含んでもよく、デバイス上のメディアプレーヤはキーフレーム同士の間にフレームを挿入する。メディアは、追加的に、メディアタイムラインに沿って映像及び音声ファイルに同期されるキャプションファイル(例えば、クローズドキャプショニング)を含んでもよい。この方法による処理の前に、メディアはキャプションを有していなくてもよく、方法がメディアに関するキャプションを生成する。代替的に、メディアは、少なくとも1セットのキャプションを有してもよく、また、複数セットのキャプションを有することがさらに好ましい(例えば、各セットのキャプションは異なる言語のものである)。メディア上でこの方法が実行された後、メディアは、1セット以上のキャプションに関連付けられることが好ましく、各セットのキャプションは、異なる言語のものであることが好ましい。複数セットのキャプションは、別個のキャプションファイルとして記憶されてもよく、包括的なキャプションファイルのサブセットとして記憶されてもよく、又は、任意の他の適切な方法で記憶されてもよい。各セットのキャプションは、キャプションが翻字である音声に同期される映像フレーム上にキャプションが現れるように、メディアの映像及び音声に同期されることが好ましい。
[0034] 各セットのキャプションは、複数のキャプションを含むことが好ましく、各キャプションは、キャプションファイル内の注釈(キャプション)並びに開始タイムスタンプ及び終了タイムスタンプに関連付けられることが好ましい。代替的に、各キャプションは、開始タイムスタンプ及び表示期間に関連付けられてもよく、開始映像フレーム及び終了映像フレームに関連付けられてもよく、開始音声信号及び終了音声信号に関連付けられてもよく、又は、任意の他の適切なキャプションデータ構造を含んでもよい。タイムスタンプ及び/又は期間は、キャプションが意図されるメディアセグメント/セクションを定義することが好ましい。各キャプションは、追加的に、複数のバージョンを含んでもよく、各バージョンは、異なる時間(例えば、リアルタイム、タイムスタンプではない)に受信される、又は、異なるユーザから受信されることが好ましい。各キャプションバージョンはメタデータを含むことが好ましく、メタデータは、キャプションのバージョンをサブミットしたユーザ、バージョンがサブミットされた時間、デバイス識別子、地理的位置識別子(例えば、バージョンをサブミットした時間におけるユーザ位置)を識別するユーザ識別子を含むメタデータ又は任意の他の適切なメタデータを含むことが好ましい。
[0035] メディアセグメントは、開始及び終了タイムスタンプの間の映像又は音声ファイルの一部であることが好ましい。メディアは、システムのユーザによってメディアセグメントにセグメント化されることが好ましいが、代替的に、以下に説明するように、システムによってセグメントに自動的にセグメント化されてもよい。メディアセグメントは、メディアタイムラインに沿って重複しないことが好ましいが、代替的に重複してもよい。
[0036] 動作時、キャプションは、開始タイムスタンプと終了タイムスタンプとの間の映像フレーム上に、又は、最初のタイムスタンプから開始する期間中の映像フレーム上に表示される(例えば重ね合わせられる)ことが好ましい。代替的に、キャプションは、映像ファイルの映像フレーム内にハードコード化されてもよい。キャプションセット内のキャプションは、重複する期間(例えば連続的である)を有しないことが好ましいが、代替的に、異なるスピーカのための異なるキャプションの場合に、重複する期間を有してもよい。代替的に、キャプションは、メディアをダビングする又はレクタリングする(lectoring)(例えば、吹き替え)のためのスクリプト又はソースとして用いられてもよい。ダビング又はレクタリングは、機械テキスト音声変換方法などを通じて自動的に生成されてもよく、又は、手動で生成されてもよく、ユーザ(第1及び第2ユーザとは異なるが、代替的に任意の適切なユーザ)は、メディアセグメント又はメディアの任意の他の適切な一部をダビング又はレクタリングするためのスクリプトとしてキャプションを用いる。
[0037] メディアは、メディアレポジトリ(例えばサーバ)に記憶されることが好ましいが、代替的に、任意の他の適切な記憶手段に記憶されてもよい。メディアは、ブラウザ又はネイティブアプリケーションを支持するデバイスにストリーミングされることが好ましいが、代替的に、デバイス上に記憶されてもよい。方法は、キャプション付けネットワーキングサービス、メディアホストサービス、又は、任意の他の適切なメディア又はキャプション提供者によって複数アカウント共同システムで実行されることが好ましい。メディアは、オンラインキャプション付けサービスによって記憶され、オンラインキャプション付けサービスから受信デバイスにストリーミングされることが好ましく、キャプション付けサービスは、ストリーミングされたメディアに関するキャプションファイルをさらに生成することが好ましい。
[0038] 代替的に、メディアは、キャプション付けサービスとは別個のオンラインメディアホストサービス(例えばYouTube)によって記憶されて当該オンラインメディアホストサービスからストリーミングされてもよく、キャプション付けサービスは、インターフェースを提供して、ストリーミングされたメディアにキャプションを付け、かつ、キャプションファイルを生成する。オンラインキャプション付けサービス及び/又はメディアホストサービスは複数のオンラインユーザアカウントを含むことが好ましく、オンラインユーザアカウントの各々は、ユーザプロファイル及びユーザ生成ポスト(例えば電子メッセージ)のコンテンツストリームに関連付けられることが好ましい。ユーザプロファイルは、ユーザ生成タイプであってもよく、又は、ユーザアカウントコンテンツストリームから、ユーザアカウントのつながりから、ユーザデバイスから、又は、ユーザアカウントに関連付けられた任意の他の適切な情報から、自動的に導出されてもよい。オンラインキャプション付けサービス及び/又はメディアホストサービスは、インターネットを通じて受信デバイスに情報(例えば映像、音声又はキャプション情報)をストリーミングすることが好ましいが、代替的に、近距離技術又は任意の他の適切なデータ伝送スキームを通じて受信デバイスにまとめて情報をストリーミング又は送信(例えばメディア再生に先立ってファイル全体を送信)してもよい。同様に、オンラインキャプション付けサービス及び/又はメディアホストサービスは、インターネットを通じてユーザデバイスからデータを受信することが好ましい。データ(例えば、キャプションに関する注釈)は区分的に受信されることが好ましく、各時間データは、メディアセグメントごとに受信されるが、代替的に、まとめて(例えばメディアの全体に関する注釈)受信されてもよい。
[0039] 方法の一変形例では、キャプション付けサービスは、別個のメディアホストサービスからメディアをストリーミングするユーザインターフェース(例えばブラウザウィンドウ)を提供し、キャプション付けサービスは、メディアセグメント化してキャプション付けするデータを受信してキャプションファイル内に処理する。結果として得られるキャプションファイルは、次に、元のメディアとの同期化及び/又はその後のストリーミングのためにメディアホストサービスに送信され、又は、キャプション付けサービスサーバに記憶されてもよく、メディアを視聴するためのユーザリクエストは、キャプション付けサービスにユーザにキャプションをストリーミングすることを指示してもよい。
[0040] メディアは、ユーザデバイス上のプレーヤインターフェース上で再生可能であることが好ましく、プレーヤインターフェースは、メディア視聴、リスニング及び/又は体験するためのインターフェースを提供するように機能する。プレーヤインターフェースは、上記のシステムで説明されたものと実質的に同様であることが好ましいが、プレーヤインターフェースは、メディアを消費する任意の適切なインターフェースであってもよい。プレーヤインターフェースは、メディアセグメント選択及び注釈入力を可能にすることが好ましく、及び追加的に、一時停止/再生、早送り、巻戻し、他のチャプタへの前後スキップ、ボリューム設定の変更及び/又は他のメディア再生パラメータの調節などの他の適切なメディアツールのためのインターフェースを提供してもよい。
[0041] メディアはメディアプレーヤ上でさらに再生可能であることが好ましく、プレーヤインターフェースはメディアプレーヤを含んでもよい。メディアプレーヤは、一時停止/再生、早送り、巻戻し、複数の通常の再生速度での再生、メディアタイムラインに沿った前後スキップ、及び/又は、他のメディア再生パラメータの調節のためのインターフェースを提供することが好ましい。メディアプレーヤは、追加的に、クローズドキャプショニング選択を可能にすることが好ましく、キャプションは、クローズドキャプショニングアイコン選択に依存して選択的にオン/オフされてもよい。キャプションファイルが、ストリーミングされる、及び/又は、クローズドキャプショニングアイコン選択状態とは無関係にメディアの残りを提供されることが好ましい一方で、キャプションファイルは、クローズドキャプショニングアイコン選択状態に基づいて選択的にストリーミングされてもよい(例えば、クローズドキャプショニングアイコンがオンの時にストリーミングされ、クローズドキャプショニングアイコンがオフの時にはストリーミングされない)。
[0042] キャプション及び/又は音声の言語は、自然な人間の言語又は特定の言語体系であることが好ましい。言い換えれば、言語は、意味を伝えるための組み合わせの文法規則によって支配されたサインの形式体系であることが好ましい。しかしながら、言語は、コミュニケーションの任意の他の適切な形態であってもよい。言語は文語又は口語であってもよい。言語は、一般的用法(例えば死語ではない)の言語であることが好ましいが、代替的に、廃れた言語、祖語又は任意の他の適切な言語であってもよい。言語の例は、日本語、中国語、英語、ドイツ語、ロシア語、フランス語及びスペイン語を含む。言語は、系統樹に関係することが好ましく、系統樹内の言語は、言葉、語構造、単語発音、文字原稿、文法的構造などの共通の特性、又は、任意の他の適切な特性を共有する。例えば、英語は、ゲルマン語族の一部としてドイツ語に関係する。日本語は、漢字が多く用いられていることから中国語に関係すると考えられ得る。動作時、第1言語のキャプションは、関係する言語(例えば文語又は口語の関係による)のキャプションの生成に用いられてもよい。
[0043] 各言語は、システム内の共通性ランキングに関連付けられてもよく、共通性ランキングは言語の人気又は流行を示し(例えば相関し)得る。例えば、英語は、システム内において高いランキングにあり得る一方で、チェロキー語は低いランキングにあり得る。この共通性ランキングは、ユーザアカウント(例えば、ユーザプロファイル内に記載された又はユーザアカウントがサブタイトルのための所定の言語を選択する)に関連付けられた言語に基づいて決定されてもよく、高い出現頻度を有する言語には高い共通性ランキングが付与される。各言語は、追加的に、第2言語に関する関連性ランキングを有しており、関連性ランキングは、第1及び第2言語の専門知識(例えば、初級、中級、堪能なレベルで第1及び第2言語の両方を話す、読む、書く)を有するユーザの数を示し得る。例えば、システムのさらに多くのユーザが、日本語及びロシア語の両方よりも日本語及び英語の両方の方でより堪能である場合、日本語及び英語の組み合わせに関する関連性ランキングは、日本語及びロシア語の組み合わせよりも高いことが好ましい。しかしながら、各言語又は各群の言語は、任意の他の適切なパラメータに基づいて任意の他の適切なランキングを付与されてもよい。
[0044] メディアセグメントに関するキャプションとしての第1注釈を第1ユーザから受信するステップS100は、メディアセグメントに関するキャプションを作成又は編集するように機能する。第1注釈は、第1ユーザに関連付けられた第1デバイスから受信されることが好ましいが、代替的に/追加的に、第1デバイス又はユーザに関連付けられた第1ユーザアカウントから受信されてもよく、又は、第1ユーザに実質的に固有にマッピングする任意の他の適切な構造から受信されてもよい。第1注釈は、第1ユーザによってキャプション入力フィールドに入力されることが好ましいが、代替的に、ユーザによって選択された推薦された注釈(例えば、音声テキスト変換方法を用いて自動的に生成される、又は、スクリプトから抽出される)であってもよい。第1注釈は、テキストであることが好ましいが、代替的に、アイコン選択、リンク又は任意の他の適切な注釈であってもよい。メディアセグメントに関する注釈は、他のメディアセグメントに関する注釈とは無関係に受信されるこが好ましいが、代替的に、他のメディアセグメントに関する注釈とともに受信されてもよい。
[0045] 第1注釈は第1言語のものであることが好ましく、キャプション(例えば、キャプションセット)は、メディアセグメントに関する第1言語のキャプションであることが好ましい。第1言語は、音声言語であってもよく、又は、音声言語とは異なる言語であってもよい。第1注釈を受信するステップは、追加的に、第1注釈の言語を選択するステップを含んでもよい。注釈の言語を選択するステップは、第1注釈の受信に先立って、ユーザ、ユーザデバイス又はユーザアカウントから言語選択を受信するステップを含むことが好ましい。言語選択は、言語に関連付けられたアイコンの選択、ドロップダウンリストからの言語の選択、又は、任意の他の適切な言語選択であってもよい。代替的に、注釈の言語は、ユーザに関連付けられたユーザプロファイルから決定されてもよく、注釈の言語は、ユーザアカウントに関連付けられた言語のリストから選択されることが好ましい。代替的に、第1注釈の言語は、テキスト又は言語認識方法を通じて自動的に決定されてもよい。
[0046] メディアセグメントに関するキャプションとしての第1注釈を第1ユーザから受信するステップは、第1注釈を受信するステップS110に先立って、第1デバイスに映像、音声及び任意のキャプションをストリーミングするステップを含むことが好ましい。映像、音声及びキャプションは、メディアセグメントに関する映像、音声及びキャプションに限定されてもよく、若しくは、メディアの全体又は大部分に関する映像、音声及びキャプションであってもよい。ストリーミングされたキャプションは、メディアに関する第1言語(ユーザのためのキャプション付け言語)のキャプションであることが好ましいが、代替的に、ユーザが第2言語をキャプション付け言語に翻訳する時など、キャプション付け言語とは異なる第2言語のキャプションであってもよい。
[0047] 第1ユーザから第1注釈を受信するステップは、追加的に、メディアセグメントに関するキャプション入力フィールドを第1ユーザに提示するステップを含むことが好ましい。より好ましくは、キャプション入力フィールドは第1デバイスでレンダリングされる。メディアセグメントに関する注釈は、メディアセグメント内の映像フレームに関連付けられて受信されることが好ましい。より好ましくは、メディアセグメントの映像フレームは、注釈の入力/受信中に表示されることが好ましい。第1注釈は、キャプション入力フィールド(例えば、テキスト入力フィールド又は注釈入力フィールド)で受信されることが好ましく、キャプション入力フィールドは、注釈を付けられる(字幕を付けられる)メディアセグメントを表す映像クリップ、音声又は画像とともに示される又は他の方法で関連付けられる。メディアセグメント及びキャプション入力フィールドは、複数のメディアセグメントのうちの1つとして示されてもよく、又は、他のメディアセグメント及びメディアファイル全体のキャプション入力フィールドとは無関係に示されてもよい。キャプション入力フィールドは、各メディアセグメントごとに提示されることが好ましく、各メディアセグメントは、異なるキャプション入力フィールドに関連付けられる。メディアセグメントに関するキャプション入力フィールドは、メディアセグメントに関するキャプションの現在のバージョンと連動して(例えば、共通フレームの近傍で共通フレームに囲まれて)提示されることが好ましい。キャプション入力フィールドは、メディアプレーヤの上部に重ね合わされる透明レイヤであることが好ましいが、代替的に、部分的に不透明であってもよく、メディアプレーヤの映像部分上に重ね合わせられるか、映像部分のセクション上に重ね合わせられるか、又は、任意の他の適切なプロパティを有してもよい。キャプション入力フィールドの位置は、メディアプレーヤに関連して固定されることが好ましいが、代替的に調節可能であってもよく、キャプションは、キャプション入力フィールドの調節された位置に表示されることが好ましい。調節された位置は、(例えばメディアプレーヤの上部、下部及び側部に)制限されてもよく、又は、制限されなくてもよい。キャプション入力フィールドが移動可能である場合、キャプション入力フィールドのユーザ決定場所は、キャプションファイル内にも記録されることが好ましい。代替的に、キャプション入力フィールドは、メディアプレーヤの近傍に配列されてもよく、又は、任意の他の適切な関係で位置決めされてもよい。別個のキャプション入力フィールドが、各メディアセグメントごとにレンダリングされることが好ましい。キャプション入力フィールドは、キャプションストリームの一部としてレンダリングされてもよく、複数のキャプション入力フィールドがキャプションストリームのフレーム内でスクロールする。キャプションストリームのキャプション入力フィールドを進めるステップは、メディアファイルの現在の再生位置に対応するキャプション入力フィールドが示されて、キャプションストリームインターフェースのフレーム内で任意選択的に強調されるように、キャプションストリームをスクロールさせるステップを含むことが好ましい。キャプション入力フィールドは、メディアが再生される時、定義されたメディアセグメントのタイムフレームに関してのみメディアセグメントの受信された入力を表示することが好ましい。メディアは、キャプション入力フィールドの背後で再生されてもよく、メディアセグメントのプレビューを可能にする。キャプション入力フィールドは、テキスト入力フィールドと実質的に同様に機能することが好ましい。
[0048] 第1注釈は、代替的に、メディアセグメントとは無関係に受信されてもよくS120、第1注釈は、メディアセグメントの映像又は音声から切り離されるキャプション入力フィールドで受信され、第1注釈の例は図16に示される。第1注釈は、対象のメディアセグメントに関連付けられるキャプションに関連付けられて受信される。キャプション入力フィールドで受信された第1注釈はその後、メディアセグメントに関するキャプションの変形例として保存され、又は、メディアセグメントに関するキャプションとして保存される。第1注釈が第1キャプションに関して受信された後、システムは、注釈に関する第2キャプションを提示することが好ましく、第2キャプションは第2メディアセグメントに関連付けられる。第2メディアセグメントは、メディアファイル内の第1メディアセグメントに隣接する(例えば後続の)メディアセグメントであってもよく、又は、異なるメディアファイルからのメディアセグメントであってもよい。第2メディアセグメントは、無作為に選択されてもよく、第1メディアセグメントとの時間的関係に基づいて選択されてもよく、又は、任意の他の適切な方法で選択されてもよい。方法の変形例は、メディアセグメントの音声又は映像を提示せずに、メディアセグメントのキャプションのみを提示することによって、字幕付け及び翻訳を促進することができる。
[0049] キャプション及び第1注釈が関連付けられるメディアセグメントは、無作為に選択されることが好ましいが、代替的に、メディアセグメントに関する第1注釈言語の記憶されたキャプションバージョンの数に基づいて選択されてもよく(例えば、自動的に決定され又はユーザにランク付けされ、既定の閾値を上回るランクを有するキャプションバージョンを欠くメディアセグメントが選択される)、又は、任意の他の適切な方法で選択されてもよい。
[0050] キャプション入力フィールドで受信された第1注釈は、(例えば、キャプション言語とは異なる第2言語の)キャプションの翻訳であってもよい。例えば、キャプションは英語キャプションであってもよい一方で、第1注釈は中国語のものであってもよい。代替的に、第1注釈は、キャプションの編集(例えば、キャプション言語と同一の言語のもの)であってもよく、第2言語のものであって同一のメディアセグメントに関連付けられる二次的キャプションがまた提供されることが好ましい。例えば、キャプション及び第1注釈は中国語であってもよい一方で、二次的キャプションが英語であってもよい。第1注釈がキャプションの翻訳又はキャプションの編集であるかどうかは、言語検出又は識別アルゴリズムを用いたシステムによって自動的に検出されてもよく、又は、ユーザによって(例えば、言語ドロップダウンメニューから)選択されてもよい。キャプション言語は、共通言語(例えば、英語)であることが好ましいが、代替的に任意の適切な言語であってもよい。キャプション言語は、システムによって自動的に決定されることが好ましいが、代替的にユーザによって選択されてもよい。後者の変形例の方法では、システムは、データベースからユーザの選択したキャプション言語のキャプションを選択及び提示することが好ましい。例えば、ユーザが、翻訳されるべきキャプション言語として「スペイン語」を選択した時、システムは、スペイン語を選択して翻訳のためにユーザに提示することが好ましい。
[0051] キャプションは、メディアセグメントの任意の識別子とは全く無関係に提示されることが好ましい。代替的に、リンク、サムネイル、GIF又は他のメディアセグメント識別子がキャプションとともに提示されてもよい。単一のメディアセグメントに関して編集又は翻訳されるべきキャプションは、単独で又は対象のメディアセグメントに隣接する1以上のメディアセグメント(例えば、編集又は翻訳されるべきキャプションに関連付けられたメディアセグメント)のキャプションとともに提示されてもよい。メディアセグメントに関連付けられたキャプション(例えば、メディアセグメントに関して以前に受信又は生成されたキャプション)は、キャプション入力フィールドに関連付けられて第1ユーザのデバイスでレンダリングされる。メディアセグメントに関して選択又はレンダリングされたキャプションは、(例えば、第1及び第2注釈のスコアを決定するのと同様の方法での)高いランク又はスコアを有するキャプションであることが好ましいが、代替的に、メディアセグメントに関して選択されたキャプション言語内で無作為に選択されてもよく、又は、任意の他の適切な方法で選択されてもよい。
[0052] 方法は、第1ユーザから第1注釈を受信する前に第1ユーザからメディアセグメントの選択を受信するステップを含むことが好ましい。メディアセグメントの選択を受信するステップは、ユーザがメディアセグメントに関する注釈を入力することができるように、メディアセグメントに関するキャプション入力フィールドに焦点を当てることが好ましい。メディアセグメントの選択は、カーソル入力、キーストローク、タッチ又は任意の他の適切な入力として受信されてもよい。メディアセグメントの選択を受信するステップは、タイムスタンプに関連付けられたアイコンの選択を受信するステップを含んでもよく、タイムスタンプは、開始及び終了タイムスタンプによって境界付けられるメディアセグメント期間内にある。アイコンは、レンダリングされたメディアタイムライン、キャプション入力フィールドを囲むフレームに入れられたフィールド、キャプション入力フィールド、レンダリングされたキャプション、メディア音声の視覚表示のセクション、又は、任意の他の適切なアイコンであってもよい。
[0053] 第1ユーザから第1注釈を受信するステップは、追加的に、第1注釈に関する植字パラメータを受信するステップを含んでもよい。植字パラメータは、(例えば映像上における)キャプション配置、キャプションフォント、キャプションスタイル(例えば、イタリック体、太字等)、キャプション色、又は、任意の他の適切な植字パラメータを含んでもよい。植字パラメータは、第1注釈に対して隔離されることが好ましいが、代替的に、所定のメディアセグメントのための第1言語のキャプションの他のバージョンまで広められてもよく、他のメディアセグメントのための第1言語のキャプションまで広められてもよく、又はそうでなければ、メディア全体を通じて広められてもよい。
[0054] メディアセグメントに関するキャプションとしての第2注釈を第2ユーザから受信するステップS200は、メディアセグメントに関するキャプションの第2変形例を受信するように機能する。第2ユーザは、第1ユーザとは異なることが好ましく、第2ユーザアカウント及び第2デバイスに関連付けられることが好ましく、第2ユーザアカウント及び第2デバイスの両方が、それぞれに第1ユーザアカウント及び第1デバイスとは異なることが好ましい。第2注釈は第1言語のものであることが好ましい。第2注釈は、第1注釈と同一のメディアセグメントについて受信されることが好ましく、メディアセグメントに関する第1言語のキャプションのバージョンとして記憶されることが好ましい。代替的に、第2注釈は、メディアセグメントについての第1言語のキャプションとして記憶されてもよく、第2注釈は第1注釈を上書きする。第2注釈は、第1注釈の編集であってもよく、第1注釈は、第2注釈の受信前に第2ユーザに提示されることが好ましい。第1注釈は、メディアセグメントについての第1言語のキャプションとして第2ユーザに提示されることが好ましい。メディアセグメントについての第1言語のキャプションの現在のバージョンは、以下に説明されるように第3ユーザに対するメディアセグメントに関するキャプションの提示と同様の方法で第2ユーザに提示されることが好ましいが、代替的に他の方法で提示されてもよい。第2注釈は、代替的に、第1注釈又は任意の他の適切な注釈とは別個の注釈であってもよい。第1注釈と同様に、第2注釈は、テキストであることが好ましいが、代替的に、アイコン選択、リンク又は任意の他の適切な注釈であってもよい。第1注釈を受信するステップと同様に、第2注釈を受信するステップは、追加的に、第2注釈の言語を決定するステップを含んでもよい。第2注釈の言語は、第1注釈について説明されたように決定されてもよく、又は、別の方法で決定されてもよい。植字パラメータは第2注釈について受信されてもよく、又は、第1注釈に関する植字は第2注釈に広められてもよい。代替的に、第2注釈は、第1注釈の植字パラメータにおける編集であってもよい。
[0055] メディアセグメントに関するキャプションとして第2注釈を第2ユーザから受信するステップは、上述したような第1ユーザにメディアをストリーミングするのと同様の方法で、第2注釈を受信する前に第2デバイスに、映像、音声及びメディアセグメントに関するキャプションとして第1注釈をストリーミングするステップを含んでもよい。メディアセグメントに関するキャプションとしての第2注釈を第2ユーザから受信するステップは、追加的に、上述したような第1ユーザにキャプション入力フィールドを提示するのと同様の方法で、メディアセグメントに関するキャプション入力フィールドを第2ユーザに提示するステップを含んでもよい。メディアセグメントに関するキャプションとしての第2注釈を第2ユーザから受信するステップは、追加的に、上述したような第1ユーザにキャプション入力フィールドを提示するのと同様の方法で、第2ユーザから第2注釈を受信する前に、第2ユーザからメディアセグメントの選択を受信するステップを含んでもよい。
[0056] メディアセグメントに関するキャプションとしての第2注釈を受信するステップは、代替的に、メディアセグメントを選択するステップと、選択されたメディアセグメント(図17に示すように)の音声及び/又は映像とは無関係のキャプション入力フィールドに関連付けて、選択されたメディアセグメントに関する第1注釈をレンダリングするステップS210と、キャプション入力フィールドにおいて第2注釈を受信するステップS220と、選択されたメディアセグメントに第2注釈を関連付けるステップと、を含んでもよい。メディアセグメントの音声及び映像とは無関係にメディアセグメントに関するキャプションとして第2注釈を受信するステップは、上述したように、メディアセグメントの音声及び映像とは無関係にメディアセグメントに関するキャプションとして第1注釈を受信するステップと実質的に同様であることが好ましいが、代替的に、実質的に異なってもよい。メディアセグメントに関するキャプションとして第2注釈を受信するステップは、追加的に、第2注釈言語を選択するステップを含んでもよく、第2注釈は、選択された言語のキャプションとして、選択されたメディアセグメントとともに保存され又は選択されたメディアセグメントに関連付けられる。メディアセグメントに関するキャプションとして第2注釈を受信するステップは、追加的に、第1注釈の言語を選択するステップを含んでもよく、選択された言語の注釈は第1注釈として提示されることが好ましい。
[0057] メディアセグメントを選択するステップは、第2注釈言語のキャプションを欠くメディアセグメントを選択するステップを含むことが好ましいが、代替的に、既定の閾値より高いランク又はスコアを有する第2注釈言語のキャプションを欠くメディアセグメントを選択するステップ、既定の閾値より低い第2注釈言語のキャプションの数を有するメディアセグメントを選択するステップ、メディアセグメントを無作為に選択するステップ、又は、任意の他の適切な方法でメディアセグメントを選択するステップ含んでもよい。
[0058] 選択されたメディアセグメントの音声及び/又は映像とは無関係のキャプション入力フィールドに関連付けられた選択されたメディアセグメントに関する第1注釈をレンダリングするステップS210は、第1注釈のみをレンダリングするステップと、第1注釈とは別個のキャプション入力フィールド内で第2注釈を受信するステップと、を含むことが好ましく、第1注釈は、第2注釈とは異なる言語のものであることが好ましい。代替的に、第1注釈をレンダリングするステップは、キャプション入力フィールド外でキャプションをレンダリングするステップと、キャプション入力フィールド内で第1注釈をレンダリングするステップと、第1注釈の編集として第2注釈を受信するステップと、を含んでもよく、キャプションは第1言語のものであり、第1及び第2注釈は第2言語のものである。キャプション言語は、ユーザから受信した選択によって決定されてもよく、又は、システムによって自動的に決定されてもよい。第1注釈をレンダリングするステップは、追加的に、第1注釈を選択してレンダリングするステップを含んでもよい。メディアセグメントに関する第1注釈又はキャプションの複数のバージョン(例えば、第1注釈の様々な入力又は編集された様々なバージョン)が存在する場合、第2ユーザに提示された第1注釈のバージョンは、無作為に選択されてもよく、最も高いランクを有するバージョンであってもよく、最も低いランクを有するバージョンでもよく、又は、任意の他の適切な方法で選択された任意のバージョンであってもよい。既定の閾値よりも低いスコア又はランクを有する注釈のバージョンは、注釈又はランクのために第2ユーザに提示されるべき可能性のある注釈のキューから取り消されてもよい。しかしながら、ユーザにレンダリングされるべき第1注釈は任意の他の適切な方法で選択されてもよい。
[0059] 第2注釈を受信するステップS220は、キャプション入力フィールドでテキスト入力を受信するステップを含むことが好ましい。第2注釈は、新たな入力であってもよく、又は、既存の入力の編集(例えば、第1注釈の編集)であってもよい。第2注釈は、メディアセグメントに関する第2注釈言語のキャプションのバージョンとして保存されることが好ましいが、代替的に、メディアセグメントに関する第2注釈言語の単なるキャプションとして保存されてもよい。第2注釈を受信するステップは、追加的に又は代替的に、肯定的な又は否定的なランキングのような、第1注釈に関する品質指標を受信するステップを含んでもよく、品質指標はそれぞれ第1注釈のスコア又はランクを上昇又は下降させる。第1注釈がキャプション入力フィールド内でレンダリングされる方法の一例では、第1注釈のランク又はスコアは、ユーザが第1注釈を編集せずに次に選択されたメディアセグメントに関する次のキャプションに進む時に上昇させられることが好ましく、かつ、第1注釈のランク又はスコアは、ユーザが第1注釈を編集する時に下降させられることが好ましい。否定的な品質指標の受信に応じて、システムは、図17Aに示すように、キャプションに関する第2注釈(例えば、テキスト翻訳)を入力するようにユーザに促すことができる。肯定的な品質指標の受信に応じて、システムは、第2メディアセグメントに関する第2キャプションをレンダリングすることができ、第2メディアセグメントは、図17Bに示すように、無作為に選択さてもよく、又は、メディアファイル内の第1メディアセグメントとの一次的な関係に基づいて選択されてもよい。
[0060] メディアセグメントに関するキャプションをユーザに提示するステップS300は、ユーザにメディアセグメントに関するキャプションの現在のバージョンを表示するように機能する。ユーザは、第3ユーザであることが好ましいが、代替的に、任意の他の適切なユーザであってもよい。第3ユーザは、第1ユーザ及び第2ユーザとは異なるユーザであることが好ましく、かつ、第3ユーザアカウント及び第3デバイスに関連付けられることが好ましく、第3ユーザアカウント及び第3デバイスの両方は第1及び第2ユーザアカウント並びに第1及び第2デバイスとはそれぞれ異なることが好ましい。しかしながら、ユーザは、特に注釈の入力中又は編集中、第1ユーザ又は第2ユーザであってもよい。メディアセグメントは、第1及び第2注釈が受信されたメディアセグメントであることが好ましい。ユーザにメディアセグメントに関するキャプションを提示するステップは、メディアセグメントに関する第1言語のキャプションをレンダリングするステップを含むことが好ましく、キャプションは、ユーザデバイスでレンダリングされることが好ましいが、そうでなければ、ユーザに提示されてもよい。キャプションは、メディアの再生中、開始タイムスタンプと終了タイムスタンプとの間の映像上にレンダリングされてもよい。代替的に、キャプションは、映像の脇のプレーヤインターフェース(例えば、キャプションストリーミング)の一部上でレンダリングされてもよく、キャプションは、対応のメディアセグメントの再生が終了した後に残ってもよい。キャプションは、リアルタイムのプレビューで表示されることが好ましく、かつ、注釈がユーザから受信される際に現れることが好ましい。複数アカウントの方法の実施では、キャプションは、編集、編集者及びキャプションに対する任意の他の変化を追跡するキャプション履歴によって補足されてもよい。さらに、キャプション入力コンポーネントは、キャプション、キャプション評価コンポーネント(例えば、同意/不同意、星評価)、キャプション分類コンポーネント(例えば、下手な翻訳へのフラグ立て、文法エラーへのフラグ立て等)のための考察スレッドを提供することができる。
[0061] 様々なメディアセグメントに関するキャプションは、再生されたメディアと同期して進められることが好ましく、再生されたメディアは、メディアファイルを再生する際に関連のキャプションを表示するように機能する。再生されたメディアと同期してキャプションを進めるステップは、メディアの再生位置を更新するステップを含んでもよい。メディアの再生位置は、キャプションストリームに従って、メディアタイムライン上のタイムスタンプのユーザ選択に従って、メディアセグメントのユーザ選択に従って、又は、再生位置に関連付けられた任意の他の適切なメディアパラメータに従って更新されてもよい。キャプションストリームのユーザナビゲーションはメディアの再生位置を変更してもよい。例えば、ユーザがキャプションストリームを先にスクロールインし、現在の再生位置の1分先の映像セグメントに関連付けられたキャプション上をクリックすると、メディアプレーヤは1分先にメディアをスキップする。同様に、キャプションの編集又はキャプションと相互作用する時、メディアの関連付けられた部分は、キャプションに関連付けられたメディアセグメントを再生、一時停止又は代替的にループさせてもよい。メディアセグメントを自動的に再生することによって、メディアのキャプション付け又は翻訳を助けることができる。一変形例では、キャプションストリームのナビゲーションを容易にするためにキーボードのショートカットが用いられてもよい。メディアプレーヤ及びキャプションストリームは、ナビゲーションキーボード入力、マウス/カーソル入力、タッチ入力等の形態に関係なく同期されることが好ましい。キャプションストリームは、代替的に、ユーザの介在を通じてメディアと非同期化されてもよい。例えば、ユーザは、メディア再生とは独立してキャプションをブラウズするためにキャプションストリームをスクロールさせることができる。
[0062] メディアセグメントキャプション提示は、追加的に、キャプション評価に従ってキャプションをレンダリングするステップを含んでもよい。評価は、信頼水準、キャプションの分類化(例えば、自動翻訳、原資料からのキャプション、3次翻訳)、著作者に基づいた評価、又は任意の適切な評価であってもよい。キャプション評価は、通常、少なくとも、さらなる注意が必要なキャプションと、さらなる注意が必要ないキャプションと、を特徴付ける。時には不十分な出来のエンティティ(アルゴリズムツール又は有効ではないコミュニティメンバーによって)を通じて概略的にキャプションが生成されることを可能にすることによって、さらなるメディアコンテンツがさらなる言語で字幕付けされてもよい。メディアコンテンツが速やかにアクセス可能になる場合、コンテンツは、コミュニティのキャプション編集を通じて継続的に改善されてもよい。好ましくは、キャプション評価に従ってキャプションをレンダリングするステップは、キャプション評価キーに従ってテキストの書式を設定するステップを含む。テキストの色、配置、スタイル及び任意の適切な態様は、キャプション評価を示すために用いられてもよい。メディアを観る時、視聴者が通知すると、キャプションは、低いキャプション評価を有するように示され、その後、その視聴者がキャプションストリームインターフェースを可能にしてキャプションの改善を助けることができる。キャプション評価を示すことによって、経験豊かなユーザは、さらに、編集が必要なキャプションをより優先させることができる。例示の一実施形態では、自動キャプションシステムからのキャプションは、赤フォント色でレンダリングされて機械字幕付け及び低い信頼を示し、新しいユーザから投稿されたキャプションは、グレーフォント色でレンダリングされて人のキャプション付け及び低い信頼を示し、高いキャプション付けスコアを有するアカウントユーザによって投稿又は編集されたキャプションは、白フォント色でレンダリングされて高い信頼を示し、かつ、受信された肯定的な評価を有するキャプションは、白フォントでレンダリングされて高い信頼を示してもよい。
[0063] 方法は、追加的に、図8及び図9に示すように、メディアセグメントに関する第1言語のキャプションとしての第1注釈又は第2注釈を選択するために、第1注釈及び第2注釈の分析を実行するステップS400を含んでもよい。選択されたバージョン/注釈は、メディアセグメントに関する第1言語のキャプションの現在のバージョンとして第3ユーザに提示されることが好ましい。S400は、提示されたキャプションバージョンである注釈を自動的に選択するステップ、又は、ユーザアカウントのコミュニティからの入力に基づいて注釈を選択するステップを含んでもよい。注釈を自動的に選択するステップは、第1及び第2注釈をメディアセグメントの音声の自動機械翻訳(例えば、音声テキスト翻訳)と比較するステップと、機械翻訳に最も類似する注釈を選択するステップ、既定の閾値を超える機械翻訳との類似度を有する(例えば、50%以上類似する)注釈を選択するステップ、又は、既定の閾値を超えた機械翻訳との相違を有する(例えば、40%未満の類似度、70%を超えた相違など)注釈を除去するステップと、を含んでもよい。類似度は、語句の収束又は相違、単語の類似度(例えば、キーワード)、文法の類似度、又は任意の他の適切な言語パラメータの類似度によって決定されてもよい。提示されたキャプションバージョンであるべき注釈を自動的に選択するステップは、代替的に、各注釈を第1言語に関する既知の規則(例えば、経験的に決定される又はユーザによって設定される)と比較するステップを含んでもよく、所定の閾値内の規則を満たす注釈は、提示されたキャプションバージョンとして選択されてもよい。提示されたキャプションバージョンであるべき注釈を自動的に選択するステップは、代替的に、最も一般的に生じる注釈バージョンを選択するステップを含んでもよい。提示されたキャプションバージョンであるために注釈を自動的に選択するステップは、代替的に、複数の注釈のうちで最も一般的に生じるコンポーネントを決定するステップと、一般的に生じるコンポーネントから新しい注釈を生成するステップと、を含んでもよい。例えば、複数の注釈が所定のセットのキーワードを含み(例えば、閾値出現比率を超える)、複数の注釈が所定の文法構造を含む(再び、閾値出現比率を超える)と、システムは、文法構造を用いてキーボードセットに命令して新たな注釈を生成してもよい。代替的に、S400は、注釈を比較して、直近に受信された注釈を選択することができる。代替的に、S400は、注釈を比較して、最も高いランクのユーザアカウントによってサブミットされた注釈を選択することができる。代替的に、S400は、注釈を比較して、メディアセグメントに関する第1言語の最も高いランクの注釈を選択することができる。この変形例では、システムは、キャプションを要求している各歴代のユーザに注釈を繰返し提示すること(例えば、第1注釈を第1視聴者に、第2注釈を第2視聴者に、など)、ユーザからの注釈に関する注釈品質指標を受信すること(例えば、良い/悪い、賛成票/反対票、1〜10の連続体に沿ったランク等)、注釈をランク付けする又は受信された注釈品質指標に基づいて注釈に関するランクを算出すること、かつ、メディアセグメントに関する第1言語のキャプションとして最も高いランクを有する注釈を選択することができる。代替的に、既定の閾値を超えるランク又はスコア(例えば、肯定的な入力の数)を有する注釈が選択されて提示されてもよく、既定の閾値を超えるランク/スコアを有する複数の注釈は、繰返し又は無作為に選択されて提示されてもよい。注釈は、既定の期間で繰返し提示され、各注釈に関する所定の数の提示のために繰返し提示され(例えば、各キャプションバージョンは、10分間にわたって表示される)、又は、適切な停止条件が満たされるまで繰返し提示されてもよい。注釈は、キャプションに関する注釈が選択された後に繰り返し提示されてもよく、注釈は、繰返し条件が満たされた後に繰返し提示される。繰り返し条件は、新たな注釈の受信、所定の期間の達成、既定の閾値を超えるキャプションに関するユーザリクエストの数の達成、又は、任意の他の適切な条件であってもよい。代替的に、キャプション著作者、キャプション編集、フラグ立て、評価(例えば、同意/不同意、星評価など)、キャプションコメント、及び/又は、キャプションフィードバックの任意の代替的な形態が少なくとも2つのアカウントが共同でキャプションを改善することを可能にするために用いられてもよい。共同編集は、追加的に、アカウント優先度に従って投稿されてもよい。アカウントは、承認され、及び/又は、言語熟達度、年功、優先度、承認、許可及び/又は他の管理統制を獲得してもよい。編集、コメント及びキャプション付けは、行動を起こすアカウントに従って委任されてもよい。例えば、新たなユーザは、高い優先度のアカウント(例えば、多数の高い評価の付いた翻訳をしたアカウント)によって投稿されたキャプションの編集を抑制されてもよい。新たなユーザの編集は、メッセージ/アラートとして発せられ、又は、完全に却下されてもよい。高い優先度のアカウントは、低い優先度のアカウントのいかなるキャプションを編集することを許可されてもよい。しかしながら、メディアセグメントに関する第1言語のキャプションに関する注釈は、前述のバージョンの組み合わせを用いて選択されてもよく、又は他の方法で選択されてもよい。
[0064] 方法の一変形例では、所定の言語のためのメディアセグメントに関するキャプションとして提示されるべきキャプションの変形例を選択するために注釈を処理するステップは、追加的に、選択された注釈を生成したユーザアカウントに対して通知を送信するステップ、以前に選択された注釈を生成したユーザアカウントに対して通知を送信するステップ、又は、任意の他の適切なユーザに対して通知を送信するステップを含んでもよい。例えば、通知は、選択された注釈のユーザアカウントに接続されたユーザアカウント(例えば、友人、フォロワー等)に対して送信されてもよい。
[0065] 方法は、追加的に、アカウントの言語熟達度を評価するステップを含んでもよく、アカウントの言語熟達度の評価は、コミュニティメンバー及び翻訳の投稿者の言語技能を測定するように機能する。アカウント名義者の言語熟達度評価は、キャプション編集の強制、翻訳スコアの測定、キャプションの表示、参照キャプションの表示及びキャプション付けされたメディアに投稿又はキャプション付けされたメディアを消費する任意の適切な態様に用いられてもよい。第1変形例では、言語熟達度は、キャプションへの投稿に基づいて少なくとも部分的に評価されてもよい。評価は、任意の適切なアルゴリズムであってもよいが、投稿されたキャプションの数、投稿されたキャプションに対して他者がなした修正の数、他のアカウントによって投稿されたキャプションに対してなされた修正の数、使用済み参照キャプションの言語、キャプションの評価、投稿されたキャプションを有するメディア視聴、及び/又は、キャプション投稿の任意の適切な態様などのパラメータを含んでもよい。第2変形例では、言語熟達度は、メディアの消費に基づいて少なくとも部分的に評価されてもよい。好ましい一変形例では、方法は、映像ストリーミングサービスによって実施され、それゆえ、方法は、言語熟達度の評価におけるメディア消費を監視するステップを含んでもよい。消費されたメディアの数/長さ、及び、ネイティブ言語及び/又は消費されたキャプション言語は、言語熟達度に組み込んでもよい。追加的に、言語熟達度の態様は、ユーザ自己査定、証明されたテストスコア、言語テスト、又は、言語熟達度を測定する任意の適切な手段に基づいて評価されてもよい。
[0066] 方法は、追加的に、図10に示すように、様々なユーザによって複数のメディアセグメントを共同で編集するステップを含んでもよい。これは、単独のユーザに各メディアセグメントに連続的にキャプションを付けさせる場合よりもキャプションをより速く生成することを可能にする。様々なユーザによって複数のメディアセグメントを共同で編集するステップは、第2メディアセグメントに関する第1言語のキャプションを第4ユーザから受信するステップを含んでもよい。代替的に、複数のメディアセグメントを共同で編集するステップは、第2メディアセグメントに関する第2言語のキャプションを第4ユーザから受信するステップを含んでもよく、第2言語は、第1言語とは異なる言語であることが好ましい。第2メディアセグメントは、第1メディアセグメントの開始及び/又は終了タイムスタンプとは異なる開始及び/又は終了タイムスタンプを有するメディアセグメントであることが好ましいが、代替的に、同一のメディアセグメントであってもよい。第4ユーザは、第1及び第2ユーザとは異なるユーザであることが好ましいが、代替的に、任意の適切なユーザであってもよい。第1及び第2メディアセグメントに関する注釈は、実質的に同時に受信される(例えば、第2メディアセグメントに関する注釈は、第1メディアセグメントに関する注釈の受信と実質的に同時に受信される)ことが好ましいが、代替的に、異なる時間に受信されてもよい。第2メディアセグメントに関する第1言語のキャプションに関する注釈は、第1メディアセグメントに関する第1言語のキャプションを含むファイルに追加されることが好ましいが、その他の方法で記憶されてもよい。第2メディアセグメントに関する第1言語のキャプションは、追加的に、第4ユーザとは異なるユーザによって上述した方法(S200)で編集可能であることが好ましい。さらに、アカウントは、キャプションに対するメディアの特定の部分を割り当てられてもよく、当該部分は、アカウントの言語熟達度評価に基づいてもよく又は基づかなくてもよい。キャプション付けシステムのサーバは、アカウントが実質的にリアルタイムで遠隔に協力することができるように、キャプション付けインターフェースのリアルタイム同期を可能にしてもよい。
[0067] 方法は、追加的に、図11に示すように、提示されたキャプションを動的に更新するステップを含んでもよく、動的な更新は、キャプションの直近のバージョンを提示するように機能する。キャプションは、メディア及びキャプションをストリーミングしているユーザのために動的に更新されることが好ましい。キャプションは、新たな注釈(例えば、第2注釈)の受信に応じて動的に更新されることが好ましく、新たな注釈は、それぞれのメディアセグメントに関するキャプションとして視聴しているユーザに対して提示されることが好ましい。方法の一変形例は、第2デバイスに対する映像、音声及び第1言語のキャプションのストリーミングと実質的に同時に又はわずかにずれた時間で第4デバイスに対して映像、音声及び第1言語のキャプションをストリーミングするステップを含み、かつ、第4デバイスに対してストリーミングされた第1言語のキャプションは、第2デバイスから受信された第2注釈によって動的に更新される。第2及び第4デバイスに対する映像、音声及びキャプションのわずかにずれた時間でストリーミングするステップは、メディアが第4ユーザにストリーミングされるわずかに前に第2ユーザに対してメディアをストリーミングするステップを含むことが好ましく、第2及び第4ユーザは、同時にメディアの異なる部分を視聴している。
[0068] 方法は、追加的に、他の適切な協力の提供と、例えば文法チェック、スペルチェック、翻訳ツール、タスク割り当て、用語集ツール、チャット又は考察ツール、キャプションナビゲーションツール、評価ツール、フィードバックツール、又はキャプション付け作業を改善するための任意の適切なツールなどの編集ツールの提供と、を含んでもよい。タスク割り当てツールは、特定のメディアセグメント、キャプションセットの全体及びキャプションの他の部分が、異なるアカウントに割り当てられることを可能にすることが好ましい。例えば、1アカウントが、他のアカウントがそれらキャプション上への作業を重複して行わないように、キャプション付けのためにキャプションのブロックする権利を有してもよい。用語集ツールは、キャプションセットの言語を標準化するように機能することが好ましい。ある翻訳は、色々な異なる語句によって翻訳されてもよい。用語集ツールは、標準化された語句又は俗語フレーズに関する参照として役立ち得る。例えば、1文字が、「上司」、「議長」、「チーフ」又は他の適切な語句として参照されてもよいが、用語集ツールは、様々なアカウントが文字に関する標準化された用語を用いることを援助することができる。用語集ツールは、追加的に、用語集ツール内の標準化された語句を変更することが他の場所の語句を更新することができるように自動更新を可能にすることができる。追加的に、ツールは、語句が用いられるべき時に意味的に検出することができ、また、用語集ツールは、語句を提案又は語句を標準化された語句に自動的に変更してもよい。キャプションナビゲーションツールは、最初/最後の欠落した翻訳をナビゲーションすること、次の欠落した翻訳に進むこと、低い信頼の翻訳のみを表示すること、特定のアカウントによって作成された翻訳を見ること、又は、任意の適切なキャプションナビゲーション、検索及び/又はフィルタリング操作を実行すること、をキャプションナビゲーションツールが可能にすることができる現在のキャプション状態に基づいて、映像がナビゲートされ、検索され、フィルタリングされることを可能にすることができる。
[0069] 方法は、追加的に、第1及び/又は第2ユーザのためのキャプション付け言語(第1言語)を選択するステップを含んでもよい。方法の一変形例では、音声言語(例えば、言語タグ、ジオタグ、メタデータ、自動言語認識などから決定される)は第1言語とは異なる。第1及び/又は第2ユーザのために第1言語を選択するステップは、それぞれのユーザのユーザプロファイル内に記載された言語を選択するステップを含むことが好ましい。
2.1 多言語におけるキャプション生成
[0070] 方法は、追加的に、多言語でキャプションを生成するステップを含んでもよい。多言語でキャプションを生成するステップは、図12Aに示すように、様々なユーザアカウントから異なる言語のキャプション(例えば、音声からの直接翻訳)を受信するステップ、第1言語のキャプションを第2言語に自動的に翻訳するステップ、図12Bに示すように、第1言語のキャプションの第2言語への手動の翻訳を容易にするステップ、又は、多言語でのキャプション生成の任意の他の適切な方法を含んでもよい。第2言語は、第1言語とは異なる言語であることが好ましい。複数のユーザが所定のメディアセグメントに関する様々な言語のキャプションを同時に作成すること及び/又は複数のメディアセグメントにわたって様々な言語のキャプションを作成することを可能にすることによって、多言語でキャプションを生成するステップが、異なる言語のキャプションセットを同時に生成することを可能にする。
[0071] 方法の一変形例では、メディアに関する第1言語のキャプションは第2言語のキャプションに自動的に翻訳される。自動的な翻訳は、機械翻訳を含むことが好ましく、第1言語のキャプションのテキストは、機械翻訳システムに送られ、かつ、機械翻訳システムの出力は、メディアセグメント/メディアに関する第2言語のキャプションとして保存されることが好ましい。代替的に、自動キャプション翻訳は、メディアの第2ピース(piece)から上手くキャプション付けされたメディアセグメントを識別するステップと、メディアの第1ピースと第2ピースとの間でメディアセグメントをマッチングするステップと、メディアの第1ピースのメディアセグメントのマッチングのキャプションとして、メディアの第2ピースから上手くキャプション付けされたメディアセグメントのキャプションを保存するステップと、を含んでもよい。上手くキャプション付けされたメディアセグメントは、既定の閾値を超える編集又はバージョンの数(例えば、3つのキャプションバージョン)を有するメディアセグメントであってもよく、既定の閾値を超えるランク(例えば、ユーザコミュニティによってランク付けされる場合に75%を超えるスコア)を有するキャプションを有するメディアセグメントであってもよく、又は、信頼性の高いキャプション付けの指標を有する任意の他の適切なメディアセグメントであってもよい。メディアの第1及び第2ピースのメディアセグメントをマッチングするステップは、メディアセグメントの音声波形/パターンをマッチングするステップを含むことが好ましいが、メディアセグメントはその他の方法でマッチングされてもよい。メディアセグメントマッチングは、音声周波数に依存しない(例えば、語句は男声又は女声に関わらずマッチングされる)ことが好ましいが、代替的に、周波数依存であってもよい(例えば、女声の同一の語句はマッチングされるが、男声の語句は女声の同一の語句とはマッチングされない)。メディアの第2ピースに関する上手くキャプション付けされたメディアセグメントに関するキャプションは、メディアの第1ピース内のメディアセグメントのマッチングに関するキャプションとして用いられることが好ましい。識別された上手くキャプション付けされたメディアセグメントは、第1メディアに関するキャプションと同一の言語のものであることが好ましい。
[0072] 第1言語のキャプションは、メディアセグメントベースで翻訳されることが好ましいが、代替的に、キャプションファイル全体として翻訳されてもよい。自動キャプション翻訳は、第1言語に関連する第2言語(例えば、英語をドイツ語に、日本語を韓国語になど)に限定されることが好ましいが、代替的に、限定されなくてもよい。代替的に、第1言語は、英語などの「共通」言語であってもよく、共通言語から第2言語(例えば、英語からスペイン語)への翻訳に関するデータは、実質的に豊富である及び/又は信頼性が高い(例えば、既定の閾値以上)。
[0073] 第1言語のキャプションを第2言語のキャプションに自動的に翻訳するステップは、追加的に、ユーザに対して第2言語のキャプションを提示するステップと、ユーザから提示されたキャプションの編集を受信するステップと、を含んでもよい。ユーザに対して第2言語のキャプションを提示するステップは、メディアに関する第2言語のキャプションを要求しているユーザのデバイスにおいて第2言語のキャプションをレンダリングするステップを含むことが好ましいが、代替的に、ユーザのための第2言語のキャプションのスクリプトをレンダリングするステップ、又はそうでなければ、ユーザに対して第2言語のキャプションを提示するステップを含んでもよい。ユーザは、第2言語で読み書きができるユーザであることが好ましいが、任意の適切なユーザであってもよい。第2言語の提示されたキャプションへの編集を受信するステップは、メディアセグメントに関して第2ユーザから第2注釈を受信するステップと同様の方法で注釈を受信するステップを含むことが好ましい。しかしながら、第2言語の提示されたキャプションへの編集は、その他の方法で第3ユーザから受信されてもよい。
[0074] 方法の別の変形例では、システムは、第3ユーザによって第1言語のキャプションの第2言語への翻訳を容易にする。第3ユーザは、第1及び第2ユーザとは異なるユーザであることが好ましく、かつ、第1及び第2言語に堪能である又は第1及び第2言語で読み書きができることが好ましい。第1言語のキャプションの第2言語への翻訳を容易にするステップは、メディアセグメントに関する第1言語のキャプションを第3デバイスでレンダリングするステップと、メディアセグメントに関する第2言語のキャプションとしての注釈を第3デバイスから受信するステップと、を含むことが好ましい。注釈は、第2言語に関するキャプションファイル内のメディアセグメントに関する第2言語のキャプションの第1バージョンとして保存されることが好ましい。第2言語の注釈入力のためのキャプション入力フィールドは、追加的に、第1言語のキャプションによってレンダリングされてもよい。第2言語は、自動的に認識されてもよく、又は、ユーザ選択によって指定されてもよい。
[0075] この変形例は、追加的に、図12Bに示すように、第4ユーザに対して第1言語のキャプションを提示するステップと、メディアセグメントに関するキャプションとしての第2言語の第2注釈を受信するステップと、を含んでもよい。第4ユーザは、第3ユーザとは異なることが好ましく、かつ、第1及び第2言語に堪能又は第1及び第2言語で読み書きができることが好ましい。これは、メディアセグメントに関する第2言語のキャプションの第2変形例を受信するように機能する。第2言語の第2注釈は、メディアセグメントに関する第2言語の現在のキャプションとして保存されてもよく、又は、メディアセグメントに関する第2言語のキャプションのバージョンとして保存されてもよい。メディアセグメントに関する第2言語の第1注釈(第3ユーザから受信された)はまた、メディアセグメントに関する第1言語のキャプションが第4ユーザに提示される時に第4ユーザに提示されてもよい(例えば、第4ユーザデバイスでレンダリングされる)。この変形例では、第2注釈は、第1注釈の編集であることが好ましい。第2言語のキャプションは、上述したように第1及び第2ユーザへのキャプション提示と同様の方法で第3及び第4ユーザに提示されることが好ましいが、任意の適切な方法で提示されてもよい。
[0076] 第2言語のキャプションを受信するステップは、追加的に、各メディアセグメントに関する第2言語の複数のキャプション変形例を処理するステップと、提示のためのメディアセグメントに関する第1言語のキャプションの変形例を選択するステップと同様に、所定のメディアセグメントに関する第2言語のキャプションとして提示するための変形例を選択するステップと、を含んでもよい。異なるメディアセグメントに関する第2言語のキャプションは、複数のユーザから実質的に同時に又は一斉に受信されてもよく、又は、連続的に(例えば、1つずつ)受信されてもよい。
[0077] 第2言語のキャプションを受信するステップは、追加的に、第3又は第4ユーザのためのキャプション付け言語を選択するステップを含んでもよい。第3又は第4ユーザのためのキャプション付け言語は、第1又は第2ユーザのための第1キャプション付け言語の選択について説明された方法で選択されることが好ましい。第3又は第4ユーザのためのキャプション付け言語を選択するステップは、第1言語のキャプションを第3又は第4ユーザに対して表示するかどうかを決定するステップを含んでもよい。例えば、ユーザプロファイルが音声言語及び第2言語を含むが第1言語を含まない時、メディアセグメントに関する第1言語のキャプションはユーザに対して提示されない(例えば、ユーザデバイスでレンダリングされない)ことが好ましい。ユーザプロファイルが第1言語及び第2言語を含む時、メディアセグメントに関する第1言語のキャプションがユーザに提示されることが好ましい。
[0078] 方法は、追加的に、ユーザのための提示言語を選択するステップを含んでもよく、提示言語の選択は、ユーザに対して提示される(例えば、ストリーミングされてレンダリングされる)べきキャプションセットを選択するように機能する。より好ましくは、方法は、ユーザデバイスからメディアストリーミングリクエストの受信に応じてユーザのための提示言語を選択するステップと、ユーザデバイスで選択された提示言語のキャプションをストリーミング及び/又はレンダリングするステップと、を含む。ユーザのための提示言語は手動で又は自動的に選択されてもよい。提示言語の手動選択は、ユーザデバイスから言語選択を受信するステップを含むことが好ましい。言語選択は、言語に関連付けられたアイコンの選択、ドロップダウンリストからの言語の選択、又は、任意の他の適切な言語選択であってもよい。自動言語選択は、ユーザプロファイルに関連付けられた(例えば、ユーザプロファイル内で堪能な言語として記載された)言語を選択するステップ、ユーザプロファイルに関連付けられ、かつ、既定の閾値を超えるユーザによってこれまでに選択されてきた言語を選択するステップ(例えば、ユーザが常に50%を超えるキャプション言語として英語をこれまでに選択する時、提示言語は英語に設定される)、デフォルト言語を選択するステップ、ユーザによって選択された直近の提示言語を選択するステップ、ユーザによって用いられた直近のキャプション付け言語を選択するステップ、又は、適切な既定言語を自動的に決定する任意の他の適切な方法を含んでもよい。
2.2 メディアセグメント化
[0079] 方法は、追加的に、図13及び図15に示すように、メディアをセグメント化するステップを含んでもよく、メディアのセグメント化は、ユーザのためのメディアセグメントをキャプションに提供するように機能する。メディアは、自動的に、半自動的に又はユーザによって手動でセグメント化されてもよい。データを手動でセグメント化するユーザは、第1又は第2ユーザとは異なるユーザ(例えば、第3、第4又は第5ユーザ)であることが好ましいが、代替的に、任意の適切なユーザであってもよい。セグメントは、ユーザデバイス又はユーザアカウントから受信されることが好ましいが、代替的に、セグメント化するユーザに関連付けられた任意の適切なコンストラクト(construct)から受信されてもよい。メディアセグメント化は、メディアの同一のピースに関するメディアキャプション付けと実質的に同時に実行されてもよく、定義されたメディアセグメントは、ユーザが、識別後に(例えば、メディアの残りの部分がセグメント化されない間でも)キャプション付けをするために実質的に即座に利用可能であることが好ましい。
[0080] 一変形例では、キャプション付けのためにメディアをセグメント化する方法は、メディアに関するタイムラインに沿って音声の視覚表示をレンダリングするステップS500と、メディアセグメントのセグメントパラメータを受信するステップS600と、選択されたメディアセグメントを提示するステップS700と、メディセグメントの開始及び終了タイムスタンプに関連付けられたキャプションを備えるキャプションファイルを生成するステップS800と、を含んでもよい。方法は、簡単で継ぎ目のない映像のセグメント化及びキャプション付けを可能にするように機能する。方法は、追加的に、映像の共同セグメント化及びキャプション付けを可能にするように機能する。メディアタイムラインの関数として音声を視覚的に表示することによって、この方法は、キャプション付けに対して最適に可変する視覚表示器を提供する。これは、音声視覚化の特徴によって提供された視覚的キューを用いて、ユーザが音声セグメントをより簡単に識別して選択することを可能にする。方法は、当該方法の実施のためにさらに構成されたインターフェースをレンダリングするように構成されたコンピュータシステムを通じて実施されることが好ましい。
[0081] ユーザデバイス上のメディアに関するタイムラインに沿って音声(例えば、音声レイヤ)の視覚表示をレンダリングするステップS500は、メディアタイムライン及び映像と同期して視覚音声レイヤを提供するように機能する。音声の視覚表示をレンダリングするステップはさらに、音声セグメント化を受信するための音声レイヤセグメント化インターフェースを提供するように機能する。視覚表示は、時間の関数としての画像音声レイヤとしてレンダリングされることが好ましいが、その他の方法で視覚化されてもよい。視覚表示は、少なくとも1つの時間ベースの画像次元を有する波形としてレンダリングされることが好ましい。例えば、波形は、水平時間軸上にプロットされた映像の音声振幅を表示してもよい。時間軸は、任意の適切な方向に向けられてもよく、又は、任意の適切な表示で通信されてもよい。視覚表示は、追加的に、多周波数(例えば、女声に関する1波形及び男声に関する第2の波形)、複数トラック、又は、任意の他の適切な音声特徴を表示することができる。一変形例では、各スピーカは、ユーザがメディアセグメントの境界を視覚的に識別するだけでなく、スピーカの音声ストリームに基づいてメディアを容易にセグメント化する(例えば、各スピーカごとにメディアセグメントを作成する)ことを可能にするレンダリングされた音声レイヤを有してもよい。好ましくは、音声レイヤは、ユーザが口語(例えば、語句又は文章)の境界を視覚的に検出することを可能にする。例えば、会話している2人による映像では、音声レイヤは、誰かが話している時に厳密にグループ化されたいくつかの顕著な振幅レベルを有する波形を有する。スピーカ同士の間での移行中又はスピーチの中断中、波形は、より低い又はゼロの振幅を有する。音声レイヤは、音声トラック又はメディアの結合された音声トラックであることが好ましい。代替的な一実施形態では、音声レイヤは、処理された音声の表示であってもよい。音声は、スピーチ又は口語を区分けするために処理されてもよく、キャプションにとって大事ではない背景ノイズ、音楽、音響効果又は他の音声信号を除去/低減するように処理されてもよく、又は、任意の適切な方法で処理されてもよい。音声レイヤは、代替的に、左右の音声信号又は複数のスピーカの音声フィードなどの音声の複数のチャネルを表示してもよい。
[0082] 音声の視覚表示は、メディアタイムラインの全体にわたって音声を視覚化することが好ましい。代替的に、メディア音声のセグメントは視覚化されてもよい(例えば、メディアの第1半部分)。音声レイヤは、映像の再生位置又はタイムスタンプ位置に同期されることが好ましい。音声レイヤは、メディアの現在の再生位置に同期された音声信号の時間ベースのプロットを表示することが好ましい。音声レイヤは、通常、現在の再生位置に先行する及び/又は後続の音声信号を表示する。より好ましくは、現在の再生位置に関連付けられた音声信号は音声レイヤの中心に配置される。再生位置における再生の進行及び変化中(例えば、早送り、再生速度の変化、先送りスキップ等)、音声レイヤは、現在の再生位置に関連して適切な音声信号をレンダリングするように進む。代替的に、現在の再生位置を示すアイコンは、実質的に不活発な音声レイヤ/音声の視覚表示に沿って進行する。一変形例では、方法は、音声レイヤのズームイン及び/又はズームアウトを可能にしてもよく、音声レイヤのズームイン及び/又はズームアウトは、音声レイヤ内に表示される音声信号の視覚可能部分及び詳細を変化させるように機能する。追加的に、同期された進行中、メディアセグメントはまた、音声レイヤ内の対応の期間でレンダリングされることが好ましい。音声レイヤはまた、映像の再生進行とともに進行(例えば、スクロール)することが好ましい。メディアセグメントは、メディア内の時間位置に対応する第1及び第2タイムスタンプ(例えば、それぞれの開始及び終了時間)によって定義されてもよい。代替的に、メディアセグメントは、開始タイムスタンプ及び期間、開始映像フレーム及び終了映像フレーム、複数の映像フレーム、音声信号、又は任意の他の適切なメディアパラメータによって定義されてもよい(例えば、境界付けされる又は識別される)。存在するメディアセグメントの画像表示は、それらが対応する音声信号の部分に調整されてレンダリングされることが好ましい。
[0083] 音声の視覚表示をレンダリングするステップは、追加的に、視覚表示を生成するためのメディアの音声信号を処理するステップを含むことが好ましい。視覚表示は、メディアの再生前に生成及びレンダリングされることが好ましいが、代替的に、メディアの再生中に生成及びレンダリングされてもよく、メディアの再生後に生成及びレンダリングされてもよく、又は、任意の他の適切な順番で生成及びレンダリングされてもよい。キャプション付けサービスがメディアをホストする方法の変形例では、キャプション付けサービスは、音声ファイルを処理し、キャプション付けサービスサーバで視覚表示を生成することが好ましく、視覚表示は、ストリーミングされたメディアとともに受信デバイスに送信される。メディアが第三者(例えば、メディアホストサービス)からストリーミングされる方法の変形例では、システムは、音声をリアルタイムで(例えば、メディアの再生中に)視覚化することができ、バッファに格納された音声を視覚化(例えば、音声がバッファに格納中又は格納後)することができ、再生された音声を視覚化(例えば、メディアの再生後に音声を視覚化)することができ、音声を記録して記録された音声を、視覚化のためにキャプション付けサービスに送信することができ、又は、任意の他の適切な方法で視覚化することができる。これらの変形例では、音声は、デバイス上のデフォルト音声出力(例えば、スピーカ)から仮想通過音声共有システムを通って経路を切り替えられてもよく、仮想通過音声共有システムは、経路を切り替えられた音声から視覚表示を生成する。音声は、ユーザによるメディア再生前に経路を切り替えられることが好ましいが、代替的に、ユーザによるメディア再生中に経路を切り替えられてもよく、映像は、同期を維持するために対応して遅延させられることが好ましい。しかしながら、音声はその他の方法で視覚化されてもよい。
[0084] メディアセグメントのセグメントパラメータを受信するステップS600は、キャプション割り当てのためにメディアセグメントを識別して定義するように機能する。メディアセグメントの1以上のセグメントパラメータを受信するステップは、メディアセグメントの開始及び終了を定義することが好ましい。メディアセグメントの開始及び終了に対応した第1及び第2セグメントパラメータが受信されることが好ましい一方で、信号セグメントパラメータ又は3以上のパラメータが代替的に受信されてもよい。セグメントパラメータは、開始タイムスタンプを示すことが好ましいが、追加的に、開始タイムスタンプ後の期間又は終了タイムスタンプを示してもよい。代替的に、セグメントパラメータは、特定の開始映像フレーム(例えば、キャプションが最初に示されるべき映像フレーム)、終了映像フレーム、メディアセグメントの間の映像フレームに関する識別子を示してもよく、又は、任意の他の適切なメディアパラメータを示してもよい。代替的に、セグメントパラメータは、タイムスタンプ、映像フレーム識別子、又は、任意の他の適切なメディアパラメータであってもよい。複数のメディアセグメント(キャプション付けセグメント又はキャプション付けのためのセグメント)が選択されてもよい。セグメントは部分的に又は全体的に重複してもよい。
[0085] メディアセグメントに関するセグメントパラメータを受信するステップは、開始タイムスタンプ(メディアセグメントの開始)において入力を受信するステップと、終了タイムスタンプ(メディアセグメントの終了)を、停止イベントが検出されたタイムスタンプに設定するステップと、を含むことが好ましい。入力は、デバイスで受信されることが好ましく、かつ、キーストローク、視覚表示の第1位置上でのカーソル選択(例えば、マウス、検出されたタッチ、スタイラス)、又は、任意の他の適切な入力であってもよい。終了タイムスタンプを定義する停止イベントは、維持された入力(例えば、開始タイムスタンプを設定する入力)の解除、開始タイムスタンプとは異なる視覚表示上での終了タイムスタンプの選択又は第2位置の選択、若しくは、視覚表示上の第1位置の選択、又は、任意の他の適切なイベントであってもよい。代替的に、終了タイムスタンプは自動的に定義されてもよい。例えば、終了タイムスタンプは、開始タイムスタンプから離れた(例えば、後の)既定の期間になるように自動的に設定されてもよい。代替的に、開始タイムスタンプは、ユーザのタイムスタンプ選択の受信に応じて自動的に決定されてもよく、開始タイムスタンプは、ユーザに選択されたタイムスタンプに最も近いメディアセグメント開始特徴(例えば、振幅最小値)に対応するタイムスタンプであってもよい。終了タイムスタンプも同様に自動的に決定されてもよい。代替的に、開始タイムスタンプは、先行するメディアセグメントの終了タイムスタンプに設定されてもよい。
[0086] 代替的に、予め定義されたメディアセグメントの選択が受信されてもよい。予め定義されたメディアセグメントは、別のユーザによって前もって定義された開始及び終了タイムスタンプを有するメディアセグメントであってもよい。代替的に、メディアセグメントは、少なくとも半自動的に定義されてもよい。開始及び終了タイムスタンプはユーザ入力に応じて自動的に設定されてもよい。例えば、ユーザは、音声レイヤ/視覚表示内の時点を選択することができ、処理モジュールが、音声信号を分析して、提案されたタイムスタンプ範囲を見出すことができる。さらに別の代替案では、セグメント化は、メディアの音声及び/又は映像内でセグメントを識別することによって自動的に実行されてもよい。セグメントは、(例えば、所定の音声トラック又は全体について)スピーチパターンなしで音声トラックの期間を検出すること、及び、非スピーチ分割器に基づいてセグメントをグループ化することによって識別されてもよい。自動的にセグメント化されたメディアセグメントは、ユーザ選択を通じて起動され又は有効にされてもよい。しかしながら、メディアセグメント選択はその他の方法で受信又は決定されてもよい。予め定義されたメディアセグメントの選択は、メディアセグメント境界の範囲内の時点の位置表示の選択を受信するステップを含むことが好ましいが、代替的に、メディアセグメントに関連付けられた注釈の選択を受信するステップを含む、又は、任意の他の適切なメディアセグメント識別子の選択を受信するステップを含んでもよい。
[0087] セグメントパラメータは、音声信号の視覚表示において受信されてもよく、視覚表示セグメントが選択される。例えば、ユーザは、視覚表示のセグメントを選択して(例えば、クリックをする)、対応の音声セグメントを選択することができる。代替的に、メディアセグメント選択は、視覚表示とは無関係に受信されてもよい。例えば、ユーザは、メディア再生中、予めマッピングされたキーを選択及び押し下げることができ、最初のキー選択におけるメディアタイムスタンプは開始タイムスタンプ(開始タイムスタンプ)として設定されることが好ましく、維持された入力(キー選択)が解除された(停止イベント)メディアタイムスタンプは終了タイムスタンプとして設定される。セグメントは、代替的に、任意の手動の制御インターフェースを通じて定義、選択、識別又は記述されてもよい。
[0088] 方法の一変形例では、メディアセグメントの選択を受信するステップは、メディアの開始タイムスタンプにおける入力を受信するステップ(メディアは、再生又は一時停止されてもよい)と、入力が維持されている間に開始タイムスタンプからメディアを再生するステップと、終了タイムスタンプ(停止タイムスタンプ)における入力の解除を検出するステップと、を含む。例えば、ユーザは、時間1:12に対応する点で音声レイヤ上の「マウスダウン」を実行することができ、時間1:35に対応する点にカーゾルをドラッグし、次に、「マウスアップ」を実行してもよい。マウスボタンを解放する際、メディアプレーヤは、1:12から1:35まで映像を再生することができ、その映像部分を停止させる又は代替的にループすることができる。方法の一変形例では、メディアは開始タイムスタンプから再生され、終了タイムスタンプは、第2入力(例えば、マッピングされたキーの第2入力)の受信時に設定される。
[0089] メディアは、代替的に、セグメント選択中にメディアセグメントの前及び/又は後の追加メディアコンテンツ(メディアコンテンツが存在する場合)を再生することができる。このようなセグメントパディングは、メディアセグメントが、先行する及び後続のメディアコンテンツのあるコンテンツとともに視聴されることを可能にする。メディアコンテンツ選択は、メディアセグメントにメディア部分を追加するように又はメディアセグメントから部分を除去するように速やかに調節されてもよく、メディアセグメントは、ある変形例では、メディアパディング内に示されるメディアの部分を追加する。
[0090] 追加的に、メディアセグメントを選択するステップは、キャプション規制を実行するステップを含んでもよい。通常、キャプション規制は、セグメント時間を案内する最小及び最大キャプション長さに関連する。最小及び最大閾値は、文字カウント、単語カウント、単語毎の読み取り速度、及び、読み取り速度の他の適切な近似値に基づいてもよい。セグメントが所定の期間にあることを阻止される一方で、代替的に、警告が起動されてキャプション期間の問題を有するユーザに通知する。例えば、選択されたメディアセグメントが所定のキャプションに対して小さ過ぎる場合、音声レイヤ内の画像表示は色を変化させてもよい。理想的には、選択されたセグメントは、メディアコンテンツの視聴者がキャプションを読み取るための適度な時間を有している。従って、最小及び最大長さ閾値は、平均キャプション長さ及び読み取り速度に従って設定されることが好ましい。読み取り速度は、個人又は集団に関する既定データから決定されてもよく、又は、経験的に決定されてもよい(例えば、ユーザの目の動きを監視することによって)。代替的に又は追加的に、メディアセグメント境界は、注釈の長さに基づいて、注釈が受信される際に動的に調節されてもよい。従って、キャプションがタイプされる際、セグメントは、メディアセグメント閾値に一致させるために自動的にサイズを拡大又は縮小することができる。代替的に、メディアセグメント期間の動的なサイズ変更は、ユーザによってオーバーライドされてもよい。
[0091] 選択されたメディアセグメントを表示するステップS700は、選択されたメディアセグメントを視覚的に表示して、キャプションに関するタイミングを表示するように機能する。定義されたメディアセグメントは、メディアプレーヤ上でレンダリングされることが好ましいが、代替的に、他の場所でレンダリングされてもよい。選択されたメディアセグメントは、音声信号の視覚表示上で表示される(例えば、記述される、表示される又は示される)ことが好ましいが、代替的に、タイムラインの画像表示上、映像フレームの画像表示上に表示されてもよく(例えば、音声信号のタイムライン/視覚表示に対応する複数の連続的な映像フレームがレンダリングされる)、又は、メディアタイムラインの任意の適切な表示上に表示されてもよい。メディアセグメントは、開始タイムスタンプを表示する位置にある第1境界又はアンカー(開始タイムスタンプ)、及び、終了タイムスタンプを表示する位置にある第2境界又はアンカー(終了タイムスタンプ)で表示されることが好ましい。選択されたセグメントは、それぞれのタイムスタンプに対応する位置に位置決めされた第1及び第2アイコン(例えば、時間軸、ドットなどに直行する線)によって表示されることが好ましいが、代替的に、選択されたメディアセグメントを境界付けるウィンドウによって表示されてもよく、選択されたメディアセグメント(例えば、タイムライン上、音声レイヤ上、又は映像フレーム上)を強調することによって表示されてもよく、又は、任意の他の適切な方法で表示されてもよい。メディアセグメントは、選択される際に視覚化されることが好ましい。方法の一変形例では、第1境界は、開始タイムスタンプの選択(例えば、入力の最初の受信)時にレンダリングされ、第2境界は、終了タイムスタンプの選択(例えば、停止イベントの検出)時にレンダリングされる。方法の別の変形例では、第1境界及び第2境界は、開始タイムスタンプの選択時にレンダリングされ、第2境界は、開始タイムスタンプから離れた既定の期間を表示する位置でレンダリングされることが好ましい。終了タイムスタンプの連続的な選択は、第2境界を、終了タイムスタンプを表示する位置に移動させることが好ましい。メディア再生中の維持された入力の除去時に終了タイムスタンプが設定される変形例では、第2境界は、メディアの現在の再生位置と同期して移動し、メディアの現在の再生位置を表示することが好ましい。しかしながら、選択されたメディアセグメントは、任意の他の適切な方法で表示されてもよい。
[0092] メディアセグメントの境界は、追加的に、修正され、調節され、増やされ、編集されてもよく、又は、(例えば、元のセグメント化しているユーザアカウント又は別のユーザアカウントからの)連続的に受信されたユーザ入力によるその他の方法で、更新されてもよく、方法は、追加的に、境界修正を受信するステップと、修正された境界によって表示される開始及び終了タイムスタンプを、変更された境界に関連付けられたタイムスタンプ値に設定するステップと、を含む。例えば、一旦視覚化された第1又は第2境界は、選択されてもよく(例えば、クリックされる、又は、マッピングされたキーの選択などによって選択される)、視覚表示上の新たな位置にリセットされてもよく(例えば、ドラッグされる)、リセットされた境界に関連付けられた開始又は終了タイムスタンプは、変更されて、新たな境界位置によって表示されたタイムスタンプ値を反映することが好ましい。代替的に、境界は数値インターフェースを通じて変更されてもよく、ユーザは、所定のタイムスタンプに関する新たなタイムスタンプを増加させ、減少させ又は入力することができる。メディアセグメントの開始又は終了アンカー(それぞれ第1及び第2境界)を修正している間、メディアプレーヤは、映像プレイバックを調節して、メディアセグメント内に含まれる映像部分を反映させることができる。メディアセグメントの開始又は終了タイムスタンプ(アンカー)を異なる時間部分に移動させる時、メディアプレーヤは、メディア内のその位置に関するメディアの部分をスクラブする又は提示することができる。同一のメディアセグメントに関する複数の異なる境界は、複数のユーザから受信されてもよく、通常選択された境界は、キャプションファイル内のそれぞれのタイムスタンプとして設定されることが好ましい。代替的に、境界は、モデレータによって選択され、音声ファイルのコンピュータセグメント化と最も適合するものとして選択され、又は、他の方法で選択される。
[0093] 開始及び終了タイムスタンプに関連付けられたキャプションを備えるキャプションファイルを生成するステップS800は、メディアファイルに関するすべてのメディアセグメントをデータオブジェクト内に特徴付けるように機能する。メディアキャプションファイルは、再生中のメディアとともにキャプションを表示するように構成されることが好ましく、また、メディアの映像及び音声に同期されることが好ましい。メディアキャプションファイルは、データファイル、データモデルのパラメータ内に記憶されたデータとして保存され、又は、任意の適切な方法で存続させられることが好ましい。一変形例では、メディアキャプションファイルは、キャプション付けがメディアファイルの再生時に利用可能であるように、メディアファイルに関連付けて記憶される。別の変形例では、メディアキャプションファイルは、ダウンロード可能又はストリーミング可能なリソースとして作成される。例えば、メディアホストサービスは、受信デバイスがメディアホストサービスからメディアを要求する時、受信デバイスにキャプションをストリーミングするように、キャプション付けサービスに要求を送信することができる。キャプションファイルは、メディアを記憶しているメディアリポジトリ上に保存されてもよく、又は、メディアを記憶するサービスとは別個のサービスに属する別個のサーバ上に保存されてもよい。キャプションファイル内のキャプションは、空(空ストリング)であってもよく、代替的に、テキストなどの注釈が投入されてもよい。キャプションファイルを作成するステップは、予め存在するキャプションファイルを更新する又は編集するステップを含むことが好ましいが、代替的に、新たなファイルを作成するステップを含んでもよい。
[0094] 方法は、追加的に、セグメント化しているユーザから、定義されたメディアセグメントに関する注釈を受信するステップS900を含んでもよく、注釈を受信するステップは、メディアセグメントキャプションにコンテンツを割り当てるように機能する。セグメント化しているユーザは、第1ユーザとして扱われることが好ましいが、代替的に、異なるユーザであってもよい。代替的に、図14A及び図14Bに示すように、注釈は、セグメント化しているユーザとは異なるユーザから受信されてもよい。注釈(キャプションコンテンツ)は、テキストであることが好ましいが、代替的に、画像及び/又はナレーション/再録などのキャプション付けで用いられた他のメディアを含んでもよい。直接の入力(例えば、キーストローク又はカーソルの動き)なしのメディアセグメントのタイミングの設定後にユーザがキャプションを直接タイプすることができるように、メディアセグメントの識別/定義を開始する時又は完了するユーザ上のキャプション入力フィールドに焦点が自動的に設定されてもよい。方法のこの変形例は、メディアセグメント選択を受信するステップと、キャプションボックスを即座に作成するステップと、介在するステップなしで、メディアセグメント選択に応じてキャプションボックスに焦点を向けるステップと、を含む。
[0095] 代替的に、メディアセグメントに関する注釈は、アップロードされたスクリプトから決定され、スクリプトラインのテキストは、タイミング、性別、シーン、キーフレーム又は任意の他の適切なパラメータに基づいて関連のメディアセグメントに一致させられる。別の変形例では、注釈は、開始タイムスタンプに関連付けられた注釈テキストを含むファイルから決定され、注釈テキストは、開始タイムスタンプに基づいてキャプションファイル内の正確なキャプションにマッピングされる。例えば、注釈は、開始タイムスタンプに一致している開始スタンプを有するキャプションにマッピングされてもよく、又は、記録された注釈タイムスタンプがそれぞれの開始及び終了タイムスタンプの間で生じるキャプションにマッピングされてもよい。
[0096] 代替的に、対応の定義されたメディアセグメントを有しないメディアの部分について、ユーザは、注釈入力フィールド内にテキストを入力することができ、メディアセグメントは自動的に作成されてもよい。このような変形例では、メディアセグメントは、音声又は他の要因に基づいて、予め定義された期間をデフォルトにすることができ、又は、期間の自動決定を用いることができる。テキスト又は他の注釈コンテンツは、対応のメディアセグメントを選択することによって、又は、注釈を表示する注釈入力フィールドを選択することによって、編集されてもよい。キャプションテキストは、映像のスピーチの転写であることが好ましい。キャプションテキストは、代替的に、映像のスピーチの翻訳、補足的/主観的/情報のテキスト、署名及び他のテキストの翻訳、又は、任意の適切なコンテンツであってもよい。
[0097] 追加的に、方法は、キャプションパラメータを設定するステップを含んでもよく、キャプションパラメータを設定するステップは、メディアセグメントの任意の追加の態様を設定するように機能する。キャプションパラメータは、任意の適切なユーザインターフェースを通じて設定されることが好ましい。キャプションパラメータは、スピーカ割り当て、キャプション付け分類(スピーチ、音響効果、音楽、文章翻訳など)、フォントスタイル、キャプション位置決め、キャプション推移、又は、キャプションの任意の適切な特性を含んでもよい。例えば、WYSIWYGキャプションインターフェースでは、ユーザは、キャプションを、映像セグメントの任意の適切な領域に位置決めすることができる。アカウントは、追加的に、コメントすることができ、また、メディアセグメント上の他の共同行動を実行することができる。
[0098] システム及び方法は、コンピュータ読み取り可能命令を記憶しているコンピュータ読み取り可能媒体を受け入れるように構成された機械として、少なくとも部分的に具現化及び/又は実装されてもよい。命令は、コンピュータ実行可能コンポーネントによって実行されることが好ましく、コンピュータ実行可能コンポーネントは、アプリケーション又はサーバホストアプリケーションのキャプションインターフェースと一体化されることが好ましい。コンピュータ読み取り可能媒体は、RAM、ROM、フラッシュメモリ、EEPROM、光学デバイス(CD又はDVD)、ハードドライブ、フロッピー(登録商標)ドライブ、又は、任意の適切なデバイスなどの任意の適切なコンピュータ読み取り可能媒体上に記憶されてもよい。コンピュータ実行可能コンポーネントは、一般的な又はアプリケーション特有のプロセッサであることが好ましいが、任意の適切なハードウェア専用又はハードウェア/ファームウェアの組み合わせデバイスが、代替的に又は付加的に、命令を実行してもよい。
[0099] 簡潔にするために省略したが、好適な実施形態は、様々なシステムコンポーネント及び様々な方法のプロセスのすべての組み合わせ及び配列を含む。
[0100] 当業者が先の詳細な説明から及び図及び特許請求の範囲から認識する際、以下の特許請求の範囲で定義された本発明の範囲から逸脱することなく、本発明の好ましい実施形態を修正及び変更することができる。

Claims (15)

  1. 映像及び音声を有するストリーミングされたメディアにキャプションを付ける方法であって、前記方法は、
    第1のユーザアカウントに関連した第1デバイスに、遠隔メディアリポジトリから前記メディアをストリーミングするステップと、
    前記第1デバイスで、前記メディアのタイムラインに沿った前記音声の視覚表示をレンダリングするステップと、
    第1タイムスタンプ及び第2タイムスタンプで境界を付けられたメディアセグメントを定義するセグメントパラメータを、前記第1のユーザアカウントから受信するステップと、
    前記第1タイムスタンプ及び前記第2タイムスタンプに関連付けられたキャプションを備えるキャプションファイルを生成するステップと、
    定義された前記メディアセグメントに関連する第1の注釈を、前記第1のユーザアカウントから受信するステップと、
    前記キャプションファイルを編集するステップであって、前記第1タイムスタンプ及び第2タイムスタンプに関連するキャプション用の注釈のバージョンとして、受信した前記第1の注釈を保存することを含むステップと、
    第2のユーザアカウントに関連した第2デバイスに、前記遠隔メディアリポジトリから前記メディアをストリーミングするステップと、
    定義された前記メディアセグメントの前記第1タイムスタンプ及び前記第2タイムスタンプに対応するアイコンを有する前記音声の視覚表示をレンダリングするステップと、
    定義された前記メディアセグメントに関連する第2の注釈を、前記第2のユーザアカウントから受信するステップと、
    前記キャプションファイルを編集するステップであって、前記第1タイムスタンプ及び第2タイムスタンプに関連するキャプション用の注釈のバージョンとして、受信した前記第2の注釈を保存することを含むステップと、
    表示される前記キャプションの現在のバージョンとして、前記第1の注釈および前記第2の注釈の一方を自動的に選択するステップと、
    第3のユーザアカウントに関連した第3デバイスに前記メディアをストリーミングするステップと、
    前記第1および第2のタイムスタンプの間の映像フレームにわたる定義された前記メディアセグメント用に、選択された前記注釈を前記第3デバイスでレンダリングするステップと、を含む方法。
  2. 前記第1または第2の注釈を受信するステップは、
    定義された前記メディアセグメントの選択を受信するステップと、
    選択された前記メディアセグメントに関連付けられたキャプション入力フィールドで前記第1または第2の注釈を受信するステップと、を含む、請求項に記載の方法。
  3. 前記キャプション入力フィールドが、選択された前記メディアセグメント内の映像フレームに関連付けられたテキスト入力を含む、請求項に記載の方法。
  4. 前記第2のユーザアカウントから境界変更を受信するステップと、変更された前記境界に対応したタイムスタンプを有する前記キャプションファイル内の前記キャプションを更新するステップと、をさらに含む、請求項に記載の方法。
  5. 第3及び第4タイムスタンプによって境界を付けられた第2メディアセグメントを定義するセグメントパラメータを前記第2のユーザアカウントから受信するステップと、新たなキャプションに関連付けられた前記第3及び前記第4タイムスタンプを前記キャプションファイルに追加するステップと、をさらに含む、請求項に記載の方法。
  6. 前記メディアセグメントを定義するセグメントパラメータを受信するステップは、前記視覚表示のセグメントの選択を受信するステップを含む、請求項1に記載の方法。
  7. 前記視覚表示のセグメントの選択を受信するステップは、
    前記第1タイムスタンプで入力を受信するステップと、
    前記第1タイムスタンプから始まる前記映像及び前記音声を再生するステップと、
    前記入力の解除を検出して、前記入力が解除された前記タイムスタンプに前記第2タイムスタンプを設定するステップであって、前記入力は、映像及び音声の再生中に維持される、設定するステップと、を含む、請求項に記載の方法。
  8. 前記入力が、前記音声の前記視覚表示の位置のカーソル選択である、請求項に記載の方法。
  9. 前記キャプションファイルが前記遠隔メディアリポジトリに記憶される、請求項1に記載の方法。
  10. 請求項1に記載の方法において、前記第1および第2の注釈の一方を自動的に選択するステップが、前記第1および第2の注釈を、定義された前記メディアセグメントの音声についての自動的な機械翻訳と比較して、当該機械翻訳と似ている方の注釈を選択するステップを含むことを特徴とする方法。
  11. 請求項1に記載の方法において、前記第1および第2の注釈の一方を自動的に選択するステップが、
    前記第1および第2の注釈を、定義された前記メディアセグメントの音声についての自動的な機械翻訳と比較するステップと、
    規定の閾値を超える前記機械翻訳との類似度を有する1以上の注釈を選択するステップ、または規定の閾値を超える前記機械翻訳との相違を有する1以上の注釈を削除するステップと、を含み、
    規定の閾値を超える前記機械翻訳との類似性を有する1以上の注釈を選択するステップに対応して、当該1以上の注釈が反復してまたは無作為に選択されて提示されることを特徴とする方法。
  12. 請求項11に記載の方法において、前記機械翻訳との類似度が、語句の共通、単語の類似度、または文法の類似度によって決定され、前記機械翻訳との相違が、語句の相違、単語の相違、または文法の相違によって決定されることを特徴とする方法。
  13. 請求項1に記載の方法において、前記第1および第2の注釈の一方を自動的に選択するステップが、最も共通して生じている構成要素を決定するステップと、当該共通して生じている構成要素から第3の注釈を生成するステップと、を含むことを特徴とする方法。
  14. 請求項1に記載の方法において、前記第1および第2の注釈の一方を自動的に選択するステップが、
    キャプションをリクエストしている複数のユーザに、前記第1および第2の注釈を無作為に提示するステップと、
    提示された前記注釈に対する注釈品質指標を各ユーザから受信するステップと、
    受信した前記注釈品質指標に基づいて、前記第1および第2の注釈に関するランクを計算するステップと、
    前記第1および第2の注釈のうち、定義された前記メディアセグメントに対する最も高いランキングのキャプションを有する方を選択するステップと、を含むことを特徴とする方法。
  15. 請求項1に記載の方法において、前記第1および第2の注釈の一方を自動的に選択するステップが、
    キャプションをリクエストしている複数のユーザに、前記第1および第2の注釈を無作為に提示するステップと、
    提示された前記注釈に対する注釈品質指標を各ユーザから受信するステップと、
    受信した前記注釈品質指標に基づいて、前記第1および第2の注釈に関するランクを計算するステップと、
    規定の閾値を超えるランクを有する1以上の注釈を選択するステップと、を含み、
    規定の閾値を超えるランクを有する1以上の注釈を選択するステップに対応して、当該1以上の注釈が反復してまたは無作為に選択されて提示されることを特徴とする方法。
JP2015552622A 2013-01-15 2013-08-19 メディアにキャプションを付けるシステム及び方法 Active JP6150405B2 (ja)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201361752816P 2013-01-15 2013-01-15
US61/752,816 2013-01-15
US201361754926P 2013-01-21 2013-01-21
US61/754,926 2013-01-21
PCT/US2013/055573 WO2014113071A1 (en) 2013-01-15 2013-08-19 System and method for captioning media

Publications (2)

Publication Number Publication Date
JP2016509408A JP2016509408A (ja) 2016-03-24
JP6150405B2 true JP6150405B2 (ja) 2017-06-21

Family

ID=51164858

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2015552622A Active JP6150405B2 (ja) 2013-01-15 2013-08-19 メディアにキャプションを付けるシステム及び方法

Country Status (5)

Country Link
US (2) US8848109B2 (ja)
EP (1) EP2946279B1 (ja)
JP (1) JP6150405B2 (ja)
ES (1) ES2762328T3 (ja)
WO (1) WO2014113071A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170257B2 (en) 2018-10-15 2021-11-09 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty

Families Citing this family (92)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8972257B2 (en) * 2010-06-02 2015-03-03 Yahoo! Inc. Systems and methods to present voice message information to a user of a computing device
US20140127653A1 (en) * 2011-07-11 2014-05-08 Moshe Link Language-learning system
US9508169B2 (en) * 2012-09-14 2016-11-29 Google Inc. Method and apparatus for contextually varying amounts of imagery on a map
EP2946279B1 (en) 2013-01-15 2019-10-16 Viki, Inc. System and method for captioning media
JP1527512S (ja) * 2013-02-22 2015-06-29
US9471334B2 (en) * 2013-03-08 2016-10-18 Intel Corporation Content presentation with enhanced closed caption and/or skip back
CL2013001365E1 (es) * 2013-03-13 2013-11-15 Samsung Electronics Co Ltd Dibujo industrial aplicable a la pantalla de un dispositivo de comunicacion movil, conformado por un rectangulo horizontal que cercano a su lado superior presenta una barra horizontal rectangular que en su primer cuarto a la izquierda esta pigmentado y con un circulo sobrepuesto.
US20140272820A1 (en) * 2013-03-15 2014-09-18 Media Mouth Inc. Language learning environment
USD757762S1 (en) * 2013-04-05 2016-05-31 Thales Avionics, Inc. Display screen or portion thereof with graphical user interface
USD769271S1 (en) * 2013-04-05 2016-10-18 Thales Avionics, Inc. Display screen or portion thereof with graphical user interface
US9361353B1 (en) * 2013-06-27 2016-06-07 Amazon Technologies, Inc. Crowd sourced digital content processing
USD752078S1 (en) * 2013-10-03 2016-03-22 Thales Avionics, Inc. Display screen or portion thereof with graphical user interface
KR102256291B1 (ko) * 2013-11-15 2021-05-27 삼성전자 주식회사 번역 상황을 인지하고 번역 기능을 수행하는 방법 및 이를 구현하는 전자장치
US9830376B2 (en) * 2013-11-20 2017-11-28 International Business Machines Corporation Language tag management on international data storage
KR20150107382A (ko) * 2014-03-14 2015-09-23 삼성전자주식회사 전자장치 및 전자장치의 콘텐츠 표시방법
US9477657B2 (en) * 2014-06-11 2016-10-25 Verizon Patent And Licensing Inc. Real time multi-language voice translation
US9571870B1 (en) * 2014-07-15 2017-02-14 Netflix, Inc. Automatic detection of preferences for subtitles and dubbing
US10638082B2 (en) * 2014-08-28 2020-04-28 Gregory A. Pearson, Inc. Systems and methods for picture-in-picture video conference functionality
USD851118S1 (en) 2014-09-02 2019-06-11 Samsung Electronics Co., Ltd. Display screen or portion thereof with graphical user interface
FR3025926B1 (fr) 2014-09-17 2018-11-02 France Brevets Procede de controle de la vitesse d'affichage des sous-titres
US9998518B2 (en) * 2014-09-18 2018-06-12 Multipop Llc Media platform for adding synchronized content to media with a duration
US9852759B2 (en) * 2014-10-25 2017-12-26 Yieldmo, Inc. Methods for serving interactive content to a user
US10460745B2 (en) 2015-01-15 2019-10-29 Huawei Technologies Co., Ltd. Audio content segmentation method and apparatus
US10893336B2 (en) * 2015-02-06 2021-01-12 Arris Enterprises Llc Customized captioning for client device
US9886633B2 (en) * 2015-02-23 2018-02-06 Vivint, Inc. Techniques for identifying and indexing distinguishing features in a video feed
US10133538B2 (en) * 2015-03-27 2018-11-20 Sri International Semi-supervised speaker diarization
US10529383B2 (en) * 2015-04-09 2020-01-07 Avid Technology, Inc. Methods and systems for processing synchronous data tracks in a media editing system
US10025474B2 (en) * 2015-06-03 2018-07-17 Ricoh Company, Ltd. Information processing apparatus, system, and method, and recording medium
US10021156B2 (en) 2015-06-24 2018-07-10 Spotify Ab Method and an electronic device for performing playback and sharing of streamed media
US10671234B2 (en) * 2015-06-24 2020-06-02 Spotify Ab Method and an electronic device for performing playback of streamed media including related media content
KR101789221B1 (ko) * 2015-07-16 2017-10-23 네이버 주식회사 동영상 제공 장치, 동영상 제공 방법, 및 컴퓨터 프로그램
WO2017062961A1 (en) * 2015-10-09 2017-04-13 Plugg Music Inc. Methods and systems for interactive multimedia creation
JP6559542B2 (ja) * 2015-11-05 2019-08-14 シャープ株式会社 受信装置、受信方法およびプログラム
CA3005479A1 (en) 2015-11-20 2017-05-26 Genetec Inc. Media streaming
CA3005476C (en) 2015-11-20 2024-03-05 Genetec Inc. Secure layered encryption of data streams
US9805030B2 (en) * 2016-01-21 2017-10-31 Language Line Services, Inc. Configuration for dynamically displaying language interpretation/translation modalities
JP6555553B2 (ja) * 2016-03-25 2019-08-07 パナソニックIpマネジメント株式会社 翻訳装置
US10490209B2 (en) * 2016-05-02 2019-11-26 Google Llc Automatic determination of timing windows for speech captions in an audio stream
US10417022B2 (en) 2016-06-16 2019-09-17 International Business Machines Corporation Online video playback analysis and assistance
WO2017217612A1 (ko) * 2016-06-17 2017-12-21 주식회사 사이 원터치를 이용한 동영상 컨텐츠의 자막 생성 및 공유 방법
US10944806B2 (en) 2016-06-22 2021-03-09 The Directv Group, Inc. Method to insert program boundaries in linear video for adaptive bitrate streaming
US10692497B1 (en) * 2016-11-01 2020-06-23 Scott Muske Synchronized captioning system and methods for synchronizing captioning with scripted live performances
CN107122430B (zh) * 2017-04-14 2020-09-04 阿里巴巴(中国)有限公司 搜索结果显示方法及装置
KR101924634B1 (ko) * 2017-06-07 2018-12-04 네이버 주식회사 콘텐츠 제공 서버, 콘텐츠 제공 단말 및 콘텐츠 제공 방법
US10652622B2 (en) 2017-06-27 2020-05-12 At&T Intellectual Property I, L.P. Method and apparatus for providing content based upon a selected language
US10176846B1 (en) * 2017-07-20 2019-01-08 Rovi Guides, Inc. Systems and methods for determining playback points in media assets
US10681343B2 (en) 2017-09-15 2020-06-09 At&T Intellectual Property I, L.P. Digital closed caption corruption reporting
US11856315B2 (en) * 2017-09-29 2023-12-26 Apple Inc. Media editing application with anchored timeline for captions and subtitles
CN107770598B (zh) * 2017-10-12 2020-06-30 维沃移动通信有限公司 一种同步播放的检测方法、移动终端
US10299008B1 (en) 2017-11-21 2019-05-21 International Business Machines Corporation Smart closed caption positioning system for video content
CN108156480B (zh) * 2017-12-27 2022-01-04 腾讯科技(深圳)有限公司 一种视频字幕生成的方法、相关装置及系统
US11270071B2 (en) * 2017-12-28 2022-03-08 Comcast Cable Communications, Llc Language-based content recommendations using closed captions
EP3759935A1 (en) * 2018-02-26 2021-01-06 Google LLC Automated voice translation dubbing for prerecorded videos
US10728623B2 (en) 2018-06-06 2020-07-28 Home Box Office, Inc. Editing timed-text elements
CN108650543A (zh) * 2018-06-20 2018-10-12 北京优酷科技有限公司 视频的字幕编辑方法及装置
CN108924599A (zh) * 2018-06-29 2018-11-30 北京优酷科技有限公司 视频字幕显示方法及装置
CN108924636A (zh) * 2018-06-29 2018-11-30 北京优酷科技有限公司 字幕显示方法及装置
CN109151609B (zh) * 2018-09-25 2021-01-26 海信视像科技股份有限公司 一种兼容不同平台的字幕展示方法及其装置
US11423920B2 (en) * 2018-09-28 2022-08-23 Rovi Guides, Inc. Methods and systems for suppressing vocal tracks
US11361168B2 (en) * 2018-10-16 2022-06-14 Rovi Guides, Inc. Systems and methods for replaying content dialogue in an alternate language
US11024291B2 (en) 2018-11-21 2021-06-01 Sri International Real-time class recognition for an audio stream
US11342002B1 (en) * 2018-12-05 2022-05-24 Amazon Technologies, Inc. Caption timestamp predictor
US11347379B1 (en) 2019-04-22 2022-05-31 Audible, Inc. Captions for audio content
US11463507B1 (en) * 2019-04-22 2022-10-04 Audible, Inc. Systems for generating captions for audio content
US11205445B1 (en) * 2019-06-10 2021-12-21 Amazon Technologies, Inc. Language agnostic automated voice activity detection
US11636273B2 (en) * 2019-06-14 2023-04-25 Netflix, Inc. Machine-assisted translation for subtitle localization
JP7434762B2 (ja) 2019-09-10 2024-02-21 富士フイルムビジネスイノベーション株式会社 情報処理装置およびプログラム
US11500226B1 (en) * 2019-09-26 2022-11-15 Scott Phillip Muske Viewing area management for smart glasses
US11301644B2 (en) * 2019-12-03 2022-04-12 Trint Limited Generating and editing media
US11551013B1 (en) * 2020-03-02 2023-01-10 Amazon Technologies, Inc. Automated quality assessment of translations
CN111464876B (zh) * 2020-03-31 2022-04-29 安徽听见科技有限公司 翻译文本字幕流式展示方法、装置以及设备
TWI800729B (zh) * 2020-05-21 2023-05-01 七法股份有限公司 具便利使用功能之法學資料呈現系統及方法
US11776578B2 (en) * 2020-06-02 2023-10-03 Trapelo Corp. Automatic modification of values of content elements in a video
CN114205665B (zh) 2020-06-09 2023-05-09 抖音视界有限公司 一种信息处理方法、装置、电子设备及存储介质
CN111753558B (zh) * 2020-06-23 2022-03-04 北京字节跳动网络技术有限公司 视频翻译方法和装置、存储介质和电子设备
JP2022033624A (ja) * 2020-08-17 2022-03-02 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
US11501074B2 (en) * 2020-08-27 2022-11-15 Capital One Services, Llc Representing confidence in natural language processing
CN112104896B (zh) * 2020-08-31 2023-04-07 火星语盟(深圳)科技有限公司 字幕编辑方法、终端、服务器、系统及存储介质
US11625928B1 (en) * 2020-09-01 2023-04-11 Amazon Technologies, Inc. Language agnostic drift correction
USD965015S1 (en) * 2020-09-28 2022-09-27 Samsung Electronics Co., Ltd. Display screen or portion thereof with transitional graphical user interface
USD965016S1 (en) * 2020-09-28 2022-09-27 Samsung Electronics Co., Ltd. Display screen or portion thereof with transitional graphical user interface
GB2600933B (en) * 2020-11-11 2023-06-28 Sony Interactive Entertainment Inc Apparatus and method for analysis of audio recordings
CN113010698B (zh) * 2020-11-18 2023-03-10 北京字跳网络技术有限公司 多媒体的交互方法、信息交互方法、装置、设备及介质
CN112748576B (zh) * 2020-12-09 2023-01-10 博泰车联网科技(上海)股份有限公司 Hud显示方法及显示系统、车辆、介质
US11553255B2 (en) 2021-03-10 2023-01-10 Sony Interactive Entertainment LLC Systems and methods for real time fact checking during stream viewing
US11546669B2 (en) * 2021-03-10 2023-01-03 Sony Interactive Entertainment LLC Systems and methods for stream viewing with experts
US20220303636A1 (en) * 2021-03-22 2022-09-22 Arris Enterprises Llc Providing dynamic media captioning and augmented/virtual reality feedback in home network environments
US20220366153A1 (en) * 2021-05-12 2022-11-17 Microsoft Technology Licensing, Llc Automated script generation and audio-visual presentations
US11934438B2 (en) 2021-06-28 2024-03-19 Rovi Guides, Inc. Subtitle rendering based on the reading pace
US20220414132A1 (en) * 2021-06-28 2022-12-29 Rovi Guides, Inc. Subtitle rendering based on the reading pace
US20230153547A1 (en) * 2021-11-12 2023-05-18 Ogoul Technology Co. W.L.L. System for accurate video speech translation technique and synchronisation with the duration of the speech
CN114143592B (zh) * 2021-11-30 2023-10-27 抖音视界有限公司 视频处理方法、视频处理装置和计算机可读存储介质

Family Cites Families (42)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2001288469A1 (en) 2000-08-28 2002-03-13 Emotion, Inc. Method and apparatus for digital media management, retrieval, and collaboration
US7747434B2 (en) * 2000-10-24 2010-06-29 Speech Conversion Technologies, Inc. Integrated speech recognition, closed captioning, and translation system and method
JP2005129971A (ja) * 2002-01-28 2005-05-19 Telecommunication Advancement Organization Of Japan 半自動型字幕番組制作システム
US7739584B2 (en) 2002-08-08 2010-06-15 Zane Vella Electronic messaging synchronized to media presentation
US8566887B2 (en) * 2005-12-09 2013-10-22 Time Warner Cable Enterprises Llc Caption data delivery apparatus and methods
US7954049B2 (en) * 2006-05-15 2011-05-31 Microsoft Corporation Annotating multimedia files along a timeline
US20080129865A1 (en) * 2006-11-05 2008-06-05 Sean Joseph Leonard System and Methods for Rapid Subtitling
US7559017B2 (en) * 2006-12-22 2009-07-07 Google Inc. Annotation framework for video
US8468149B1 (en) * 2007-01-26 2013-06-18 Language Weaver, Inc. Multi-lingual online community
US20090037263A1 (en) 2007-07-30 2009-02-05 Yahoo! Inc. System for the insertion and control of advertisements in video
US8271260B2 (en) * 2007-12-05 2012-09-18 Facebook, Inc. Community translation on a social network
GB0801429D0 (en) 2008-01-25 2008-03-05 Decisive Media Ltd Media Annotation system, method and media player
WO2009097492A1 (en) 2008-01-30 2009-08-06 Azuki Systems, Inc. Media navigation system
US8112702B2 (en) * 2008-02-19 2012-02-07 Google Inc. Annotating video intervals
GB0804164D0 (en) * 2008-03-06 2009-01-07 Software Hothouse Ltd Enhancements to unified communications and messaging systems
US20090265212A1 (en) 2008-04-17 2009-10-22 David Hyman Advertising in a streaming media environment
WO2010005743A2 (en) 2008-06-16 2010-01-14 View2Gether Inc. Contextual advertising using video metadata and analysis
US9390169B2 (en) * 2008-06-28 2016-07-12 Apple Inc. Annotation of movies
WO2010035249A1 (en) 2008-09-24 2010-04-01 France Telecom Content classification utilizing a reduced description palette to simplify content analysis
US8330864B2 (en) 2008-11-02 2012-12-11 Xorbit, Inc. Multi-lingual transmission and delay of closed caption content through a delivery system
US8185431B2 (en) 2008-11-13 2012-05-22 Kwabena Benoni Abboa-Offei System and method for forecasting and pairing advertising with popular web-based media
JP2010157961A (ja) * 2009-01-05 2010-07-15 Kadokawa Marketing Co Ltd 字幕作成システム及びプログラム
US8769396B2 (en) * 2009-06-05 2014-07-01 Microsoft Corporation Calibration and annotation of video content
US8572488B2 (en) * 2010-03-29 2013-10-29 Avid Technology, Inc. Spot dialog editor
US20120017153A1 (en) * 2010-07-15 2012-01-19 Ken Matsuda Dynamic video editing
WO2012030965A2 (en) * 2010-08-31 2012-03-08 Fox Entertainment Group, Inc. Localized media content editing
US8386299B2 (en) 2010-09-02 2013-02-26 Sony Mobile Communications Ab System and method for dynamically pricing electronic advertisements
US20120158492A1 (en) 2010-12-16 2012-06-21 Yahoo! Inc. Method and system for attention based advertisement insertion
US8526782B2 (en) 2010-12-22 2013-09-03 Coincident.Tv, Inc. Switched annotations in playing audiovisual works
JP2012165313A (ja) * 2011-02-09 2012-08-30 Sony Corp 編集装置及び方法、並びにプログラム
WO2012129336A1 (en) 2011-03-21 2012-09-27 Vincita Networks, Inc. Methods, systems, and media for managing conversations relating to content
JP6114492B2 (ja) * 2011-05-26 2017-04-12 ヤマハ株式会社 データ処理装置およびプログラム
US8744237B2 (en) 2011-06-20 2014-06-03 Microsoft Corporation Providing video presentation commentary
US9066145B2 (en) 2011-06-30 2015-06-23 Hulu, LLC Commenting correlated to temporal point of video data
US9354763B2 (en) * 2011-09-26 2016-05-31 The University Of North Carolina At Charlotte Multi-modal collaborative web-based video annotation system
US8494838B2 (en) 2011-11-10 2013-07-23 Globili Llc Systems, methods and apparatus for dynamic content management and delivery
US20130308922A1 (en) * 2012-05-15 2013-11-21 Microsoft Corporation Enhanced video discovery and productivity through accessibility
WO2014062941A1 (en) * 2012-10-17 2014-04-24 Proz.Com Method and apparatus to facilitate high-quality translation of texts by multiple translators
US20140143218A1 (en) * 2012-11-20 2014-05-22 Apple Inc. Method for Crowd Sourced Multimedia Captioning for Video Content
EP2946279B1 (en) 2013-01-15 2019-10-16 Viki, Inc. System and method for captioning media
US20140337126A1 (en) 2013-05-08 2014-11-13 Viki, Inc. Timed comments for media
US20140376887A1 (en) * 2013-06-24 2014-12-25 Adobe Systems Incorporated Mobile device video selection and edit

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11170257B2 (en) 2018-10-15 2021-11-09 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty
US11775838B2 (en) 2018-10-15 2023-10-03 Ancestry.Com Operations Inc. Image captioning with weakly-supervised attention penalty

Also Published As

Publication number Publication date
EP2946279B1 (en) 2019-10-16
US8848109B2 (en) 2014-09-30
JP2016509408A (ja) 2016-03-24
EP2946279A1 (en) 2015-11-25
US20140201631A1 (en) 2014-07-17
WO2014113071A1 (en) 2014-07-24
EP2946279A4 (en) 2016-08-24
US9696881B2 (en) 2017-07-04
US20140198252A1 (en) 2014-07-17
ES2762328T3 (es) 2020-05-22

Similar Documents

Publication Publication Date Title
JP6150405B2 (ja) メディアにキャプションを付けるシステム及び方法
US11301644B2 (en) Generating and editing media
US11868965B2 (en) System and method for interview training with time-matched feedback
CN104246750B (zh) 抄录语音
KR101700076B1 (ko) 텍스트 데이터와 오디오 데이터 간의 맵핑 자동 생성
US20150319510A1 (en) Interactive viewing experiences by detecting on-screen text
Shin et al. Visual transcripts: lecture notes from blackboard-style lecture videos
US20050081159A1 (en) User interface for creating viewing and temporally positioning annotations for media content
KR20200118894A (ko) 미리 레코딩된 비디오들에 대한 자동화된 보이스 번역 더빙
JP6217645B2 (ja) 情報処理装置、再生状態制御方法及びプログラム
US20200126583A1 (en) Discovering highlights in transcribed source material for rapid multimedia production
US20230071845A1 (en) Interactive viewing experiences by detecting on-screen text
CN101950578A (zh) 一种视频信息添加方法及装置、视频信息显示方法及装置
CN109348145B (zh) 基于字幕生成关联弹幕的方法及设备、计算机可读介质
CN103488661A (zh) 音视频文件注释系统
US11190471B2 (en) Methods, systems, and media for identifying and presenting video objects linked to a source video
CN102572601B (zh) 一种视频信息显示方法及装置
KR102414993B1 (ko) 연관 정보 제공 방법 및 시스템
US20230254350A1 (en) Methods, systems, and media for presenting user comments containing timed references in synchronization with a media content item
US20240087557A1 (en) Generating dubbed audio from a video-based source
EP2979227B1 (en) Interactive viewing experiences by detecting on-screen text
CN114339414A (zh) 直播交互方法、装置、存储介质、电子设备
KR20100014031A (ko) 멀티미디어 파일에서 원하는 부분만 쉽고 빠르게 정확히추출하여 u-컨텐츠 만드는 장치 및 그 방법

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160808

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160816

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20161116

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170113

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20170425

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20170519

R150 Certificate of patent or registration of utility model

Ref document number: 6150405

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250