JP7151004B2 - 中断可能な映像トランスコーディング - Google Patents

中断可能な映像トランスコーディング Download PDF

Info

Publication number
JP7151004B2
JP7151004B2 JP2021572084A JP2021572084A JP7151004B2 JP 7151004 B2 JP7151004 B2 JP 7151004B2 JP 2021572084 A JP2021572084 A JP 2021572084A JP 2021572084 A JP2021572084 A JP 2021572084A JP 7151004 B2 JP7151004 B2 JP 7151004B2
Authority
JP
Japan
Prior art keywords
video
transcoded
transcoder
tracks
transcoded file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021572084A
Other languages
English (en)
Other versions
JP2022539299A (ja
Inventor
グオ,ヤーロン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Google LLC
Original Assignee
Google LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Google LLC filed Critical Google LLC
Publication of JP2022539299A publication Critical patent/JP2022539299A/ja
Priority to JP2022154760A priority Critical patent/JP2022188147A/ja
Application granted granted Critical
Publication of JP7151004B2 publication Critical patent/JP7151004B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234363Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the spatial resolution, e.g. for clients with a lower screen resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234309Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4 or from Quicktime to Realvideo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/40Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using video transcoding, i.e. partial or full decoding of a coded input stream followed by re-encoding of the decoded output stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N19/00Methods or arrangements for coding, decoding, compressing or decompressing digital video signals
    • H04N19/50Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding
    • H04N19/59Methods or arrangements for coding, decoding, compressing or decompressing digital video signals using predictive coding involving spatial sub-sampling or interpolation, e.g. alteration of picture size or resolution
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/231Content storage operation, e.g. caching movies for short term storage, replicating data over plural servers, prioritizing data for deletion
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/23424Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for inserting or substituting an advertisement
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234345Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234381Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by altering the temporal resolution, e.g. decreasing the frame rate by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/433Content storage operation, e.g. storage operation in response to a pause request, caching operations
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44016Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving splicing one content stream with another content stream, e.g. for substituting a video clip
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440218Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by transcoding between formats or standards, e.g. from MPEG-2 to MPEG-4
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440245Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display the reformatting operation being performed only on part of the stream, e.g. a region of the image or a time segment
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440263Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the spatial resolution, e.g. for displaying on a connected PDA
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440281Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by altering the temporal resolution, e.g. by frame skipping
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/442Monitoring of processes or resources, e.g. detecting the failure of a recording device, monitoring the downstream bandwidth, the number of times a movie has been viewed, the storage space available from the internal hard disk
    • H04N21/44213Monitoring of end-user related data
    • H04N21/44218Detecting physical presence or behaviour of the user, e.g. using sensors to detect if the user is leaving the room or changes his face expression during a TV program
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/8547Content authoring involving timestamps for synchronizing content

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Business, Economics & Management (AREA)
  • Marketing (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Social Psychology (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Databases & Information Systems (AREA)
  • Television Signal Processing For Recording (AREA)
  • Compression Or Coding Systems Of Tv Signals (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

ユーザは、スマートフォン、タブレット、コンピュータ、ウェアラブルデバイス、カメラなどのさまざまなデバイスを使用して映像を取り込む。映像ファイルは、映像の長さ、映像で使用される符号化のタイプ、映像の解像度および/またはビットレートなどに基づいて、サイズが大きい(たとえば、数メガバイトまたはギガバイトである)場合がある。取り込まれた映像は、デバイスまたはサーバ上に(たとえば、ユーザの画像または映像ライブラリ内に)ローカルに格納され得る。たとえば、ユーザは、バックアップのため、映像を他のユーザと共有するためなどの目的で、映像をサーバ上に格納し得る。ユーザは、たとえばメッセージングまたはソーシャルネットワーキングサービスを介して映像を他のユーザと直接共有し得る。
大きな映像ファイルを格納することは、大量の記憶容量を必要とする。大きな映像ファイルをサーバに送信することは、相当なネットワークリソース(たとえば、帯域幅)を必要とする。映像のトランスコーディングまたは圧縮は、より低い解像度、より低いビットレートなどで映像を再符号化することを可能にし得るため、映像を格納するために必要とされる記憶容量および映像をサーバまたは別のユーザのユーザデバイスに送信するために使用されるネットワークリソースが元の映像よりも少なくなる。
本明細書に提供される背景の記載は、本開示の文脈を概略的に示すことを目的としている。この背景セクションに記載される範囲内で、ここに名前を挙げられている発明者等の研究は、出願時に先行技術としての資格を有しない記載の側面と同様に、明示的または黙示的を問わず本開示に対する先行技術として認められるものではない。
本明細書に記載されている実現例は、映像をトランスコードするための方法、デバイスおよびコンピュータ読取可能媒体に関する。
いくつかの実現例において、コンピュータによって実行される方法は、複数のトラックを含む映像を取得するステップを含む。上記方法はさらに、上記映像に対応するトランスコードされたファイルの一部が入手可能であるか否かを判断するステップを含み得る。上記方法はさらに、上記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、上記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、トランスコーダを用いて上記映像の一部をトランスコードするステップとを含み得て、上記映像の上記一部は、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプから開始し、上記方法はさらに、上記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、上記トランスコードされたファイルの一部と上記映像の上記トランスコードされた一部とを組み合わせて、出力映像を生成するステップを含み得る。
上記方法はさらに、上記トランスコードされたファイルの一部が入手可能でないと判断したことに応答して、複数の出力トラックを取得するために、上記トランスコーダを使用して上記映像をトランスコードするステップを含み得て、上記トランスコードするステップは、上記映像の最初から実行され、上記方法はさらに、上記トランスコードされたファイルの一部が入手可能でないと判断したことに応答して、上記複数の出力トラックを組み合わせて、上記出力映像を取得するステップを含み得る。いくつかの実現例において、上記出力映像は、上記映像の解像度よりも低い解像度、または、上記映像のビットレートよりも低いビットレートを有してもよい。
いくつかの実現例において、上記方法はさらに、上記トランスコーダによる上記映像のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの出力を上記トランスコードされたファイルの一部として保存するステップとを含み得る。いくつかの実現例において、上記トランスコーダの上記出力は、複数の部分出力トラックを含み得て、各部分出力トラックは、上記映像の上記複数のトラックの特定のトラックに対応する。これらの実現例において、上記方法はさらに、上記中断に応答して、上記トランスコードされたファイルの一部に関連付けられた構成設定を保存するステップを含み得る。いくつかの実現例において、上記構成設定は、ビットレートパラメータ、幅パラメータまたは高さパラメータを含み得る。
いくつかの実現例において、上記トランスコードされたファイルの一部が入手可能であるか否かを判断するステップは、ストレージデバイスにアクセスして、上記トランスコードされたファイルの一部が上記ストレージデバイス上に格納されるか否かを判断するステップを含み得る。上記トランスコードされたファイルの一部が上記ストレージデバイス上に格納されない場合、上記トランスコードされたファイルの一部が入手可能でないと判断される。上記方法は、上記トランスコードされたファイルの一部が上記ストレージデバイス上に格納される場合、上記トランスコーダの現在の構成設定が、上記トランスコードされたファイルの一部に関連付けられた上記構成設定と一致するか否かを判断するステップを含み得る。上記方法は、上記現在の構成設定が一致する場合、上記トランスコードされたファイルの一部が入手可能であると判断するステップを含み得る。上記方法は、上記現在の構成設定が一致しない場合、上記トランスコードされたファイルの一部が入手可能でないと判断するステップを含み得る。いくつかの実現例において、上記方法は、上記トランスコードされたファイルの一部を上記ストレージデバイスから削除するステップを含み得る。
いくつかの実現例において、上記方法はさらに、上記トランスコーダによる上記映像の上記一部のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの部分出力を含むように上記トランスコードされたファイルの一部を更新するステップとを含み得る。
いくつかの実現例において、上記映像をトランスコードするステップは、上記映像の上記複数のトラックのうちの1つまたは複数を復号して、対応する生データを取得するステップと、上記複数のトラックのうちの上記復号された1つまたは複数について上記生データを符号化して、上記複数の出力トラックの対応する出力トラックを取得するステップとを含み得る。いくつかの実現例において、上記複数のトラックは、少なくとも1つの音声トラックと、少なくとも1つの映像トラックとを含んでもよい。いくつかの実現例において、上記複数のトラックは、メタデータトラックをさらに含んでもよい。
いくつかの実現例において、上記少なくとも1つの映像トラックは、複数のキーフレームと、複数の非キーフレームとを含み得る。各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられてもよい。いくつかの実現例において、トランスコードされたファイルの一部に関連付けられた上記タイムスタンプは、上記複数のキーフレームのうちの特定のキーフレームに対応してもよい。
いくつかの実現例において、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプは、複数の時刻値を含んでもよい。各時刻値は、上記複数のトラックのそれぞれのトラックに対応してもよい。これらの実現例において、上記映像の上記一部をトランスコードするステップは、上記複数の時刻値の上記それぞれの時刻値から開始する上記複数のトラックの各々を復号して、対応する生データを取得するステップと、上記複数のトラックのうちの上記復号された1つまたは複数について上記生データを符号化して、上記複数の出力トラックのうちの対応する出力トラックを取得するステップとを含み得る。
いくつかの実現例は、プロセッサと、上記プロセッサに結合されたメモリとを含むコンピューティングデバイスを含み、上記メモリには、命令が格納されている。上記命令は、上記プロセッサによって実行されると上記プロセッサに動作を実行させる。上記動作は、複数のトラックを含む映像を取得するステップと、上記映像に対応するトランスコードされたファイルの一部が入手可能であるか否かを判断するステップとを備える。
上記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、上記プロセッサは、上記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、トランスコーダを用いて上記映像の一部をトランスコードするステップと、上記トランスコードされたファイルの一部と上記映像の上記トランスコードされた一部とを組み合わせて、出力映像を生成するステップとを含む動作を実行してもよい。上記映像の上記一部は、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプから開始してもよい。
上記トランスコードされたファイルの一部が入手可能でないと判断したことに応答して、上記プロセッサは、複数の出力トラックを取得するために、上記トランスコーダを使用して上記映像をトランスコードするステップと、上記複数の出力トラックを組み合わせて、上記出力映像を取得するステップとを含む動作を実行してもよい。上記トランスコードするステップは、上記映像の最初から実行されてもよい。
いくつかの実現例において、上記メモリには、上記プロセッサにさらなる動作を実行させるさらなる命令が格納され得て、上記さらなる動作は、上記トランスコーダによる上記映像のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの出力を上記トランスコードされたファイルの一部として保存するステップとを含む。
上記トランスコーダの上記出力は、複数の部分出力トラックを含んでもよい。各部分出力トラックは、上記映像の上記複数のトラックの特定のトラックに対応してもよい。いくつかの実現例において、上記動作はさらに、上記中断に応答して、上記トランスコードされたファイルの一部に関連付けられた構成設定を保存するステップを含み得る。いくつかの実現例において、上記構成設定は、上記複数の部分出力トラックの各々のフォーマットを含んでもよい。いくつかの実現例において、上記構成設定は、ビットレートパラメータ、幅パラメータまたは高さパラメータのうちの1つまたは複数を含んでもよい。
いくつかの実現例において、上記メモリには、上記プロセッサにさらなる動作を実行させるさらなる命令が格納され得て、上記さらなる動作は、上記トランスコーダによる上記映像の上記一部のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの部分出力を含むように上記トランスコードされたファイルの一部を更新するステップとを含む。
いくつかの実現例は、プロセッサによって実行されると上記プロセッサに動作を実行させる命令が格納された非一時的なコンピュータ読取可能媒体を含み、上記動作は、複数のトラックを含む映像を取得するステップと、上記映像に対応するトランスコードされたファイルの一部が入手可能であるか否かを判断するステップとを含む。
上記動作はさらに、上記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、上記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、トランスコーダを用いて上記映像の一部をトランスコードするステップと、上記トランスコードされたファイルの一部と上記映像の上記トランスコードされた一部とを組み合わせて、出力映像を生成するステップとを含み得る。上記映像の上記一部は、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプから開始してもよい。
上記動作はさらに、上記トランスコードされたファイルの一部が入手可能でないと判断したことに応答して、複数の出力トラックを取得するために、上記トランスコーダを使用して上記映像をトランスコードするステップを含み得て、上記トランスコードするステップは、上記映像の最初から実行され、上記動作はさらに、上記トランスコードされたファイルの一部が入手可能でないと判断したことに応答して、上記複数の出力トラックを組み合わせて、上記出力映像を取得するステップを含み得る。
いくつかの実現例において、上記非一時的なコンピュータ読取可能媒体は、上記プロセッサにさらなる動作を実行させるさらなる命令が格納され得て、上記さらなる動作は、上記トランスコーダによる上記映像のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの出力を上記トランスコードされたファイルの一部として保存するステップとを含み得る。
いくつかの実現例において、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプは、複数の時刻値を含み得る。各時刻値は、上記複数のトラックのそれぞれのトラックに対応してもよい。これらの実現例において、上記映像の上記一部をトランスコードする動作は、上記複数の時刻値の上記それぞれの時刻値から開始する上記複数のトラックの各々を復号して、対応する生データを取得するステップと、上記複数のトラックのうちの上記復号された1つまたは複数について上記生データを符号化して、上記複数の出力トラックのうちの対応する出力トラックを取得するステップとを含み得る。
いくつかの実現例において、コンピュータによって実行される方法は、複数のトラックを含む映像を取得するステップを含む。上記方法はさらに、上記映像に対応するトランスコードされたファイルの一部を取得するステップを含み、上記トランスコードされたファイルの一部にはタイムスタンプが関連付けられる。上記方法はさらに、トランスコーダを用いて上記映像の一部をトランスコードするステップを含み、上記映像の上記一部は、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプから開始する。上記方法はさらに、上記トランスコードされたファイルの一部と上記映像の上記トランスコードされた一部とを組み合わせて、出力映像を生成するステップを含む。いくつかの実現例において、上記出力映像は、上記映像の解像度よりも低い解像度、または、上記映像のビットレートよりも低いビットレートのうちの少なくとも1つを有する。
いくつかの実現例において、上記方法はさらに、上記トランスコーダによる上記映像の上記一部のトランスコード中に中断を受信するステップと、上記中断に応答して、上記トランスコーダの部分出力を含むように上記トランスコードされたファイルの一部を更新するステップとを含み得る。
いくつかの実現例において、上記トランスコーダの上記部分出力は、複数の部分出力トラックを含む。いくつかの実現例において、各部分出力トラックは、上記映像の上記複数のトラックのそれぞれのトラックに対応する。いくつかの実現例において、上記方法はさらに、上記中断に応答して、上記トランスコードされたファイルの一部に関連付けられた構成設定を保存するステップを含み得る。いくつかの実現例において、上記構成設定は、上記複数の部分出力トラックの各々のフォーマット、または、ビットレートパラメータ、幅パラメータまたは高さパラメータのうちの1つまたは複数、のうちの1つまたは複数を含む。
いくつかの実現例において、上記複数のトラックは、複数のキーフレームと複数の非キーフレームとを含む少なくとも1つの映像トラックを含む。いくつかの実現例において、各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられる。いくつかの実現例において、上記トランスコードされたファイルの一部に関連付けられた上記タイムスタンプは、上記複数のキーフレームのうちの特定のキーフレームに対応する。
いくつかの実現例において、上記タイムスタンプは、複数の時刻値を含む。いくつかの実現例において、上記複数の時刻値の各時刻値は、上記複数のトラックのそれぞれのトラックに対応する。いくつかの実現例において、上記映像の上記一部をトランスコードするステップは、上記複数の時刻値の上記それぞれの時刻値から開始する上記複数のトラックの各々を復号して、対応する生データを取得するステップと、上記複数のトラックのうちの上記復号された1つまたは複数について上記生データを符号化して、上記複数の出力トラックのうちの対応する出力トラックを取得するステップとを含み得る。
本明細書に記載されている1つまたは複数の実現例に使用され得る例示的なネットワーク環境のブロック図である。 いくつかの実現例に係る、映像をトランスコードするための例示的な方法を示すブロック図である。 いくつかの実現例に係る、映像をトランスコードするための例示的な処理パイプラインを示す図である。 本明細書に記載されている1つまたは複数の実現例に使用され得る例示的なデバイスのブロック図である。
映像のトランスコーディングまたは圧縮は、リソース集約的かつゆっくりとしたプロセスである。映像をトランスコードすることは、たとえばトランスコーディングに使用される処理容量、メモリおよびエネルギの観点から、計算コストが高い動作であり得る。たとえば、高品質映像(4K映像または高精細度(HD)映像など)をクライアントデバイス(スマートフォンまたはタブレットなど)上で圧縮することは、この圧縮を実行するデバイスの構成によっては、相当な時間(たとえば、映像の長さに等しい時間、映像の長さの2倍の時間、またはそれよりも長い時間)を要する可能性がある。さらに、圧縮は計算コストが高い動作であるので、ユーザがクライアントデバイスを積極的に使用している間は圧縮を実行することは実施不可能であることが多い。なぜなら、このような動作は、ユーザタスクのためのクライアントデバイスの利用可能性および/または応答性に影響を及ぼし得るからである。
このような状況を回避する1つの技術は、ユーザがクライアントデバイスを積極的に使用していない間(たとえば、クライアントデバイスがアイドルである間)に映像圧縮を実行するというものである。しかし、たとえばユーザアクション、オペレーティングシステム中断などにより圧縮が中断されると、圧縮を再開する必要があり、計算リソースを無駄にすることになる。
さらに、映像を圧縮するのに必要な時間は、映像の長さとともに増加し、それによって、このような映像の圧縮プロセス中の中断の可能性も高くなる。たとえば、圧縮動作の一部(たとえば、10%)が中断されると、このような圧縮を一から再開する必要がある。さらに、スマートフォン、タブレット、ラップトップなどのバッテリ制約付きデバイス上では、このような無駄な計算は、オンデバイスで利用できる量が限られている場合には、エネルギも無駄にすることになる。
これらの問題のうちの一部に鑑みて、本明細書に記載されている実現例を思い付いた。本明細書に記載されている実現例に従って、映像トランスコーディング動作が中断された時点からトランスコーディング動作を再開することを可能にする映像トランスコーディング技術が記載されている。中断時にトランスコードされたファイルの一部が保存され、このトランスコードされたファイルの一部をその後のトランスコーディング動作中に使用することにより、計算リソースおよびエネルギの無駄を排除または低減する。記載されている実現例は、単一のトラックを有する映像、複数のトラックを有する映像などを含むいかなるタイプの映像も処理することができる。
図1は、本明細書に記載されているいくつかの実現例において使用され得る例示的なネットワーク環境100のブロック図を示す。いくつかの実現例において、ネットワーク環境100は、1つまたは複数のサーバシステム(たとえば、図1の例では、サーバシステム102および第2のサーバシステム140)を含む。サーバシステム102および140は、たとえばネットワーク130と通信することができる。サーバシステム102は、サーバデバイス104と、データベース106または他のストレージデバイスとを含み得る。いくつかの実現例において、サーバデバイス104は、画像アプリケーション156bを提供し得る。第2のサーバシステム140は、1つまたは複数のアプリケーション(たとえば、アプリケーションA144、アプリケーションB146およびアプリケーションC148)を提供するように構成された第2のサーバデバイス142を含み得る。図1および残りの図において、参照番号の後の文字(たとえば、「156a」)は、その特定の参照番号を有する要素への言及を表す。後ろに文字を持たない本文中の参照番号(たとえば、「156」)は、その参照番号を有する要素の実施形態への一般的言及を表す。
ネットワーク環境100は、互いにならびに/またはネットワーク130を介してサーバシステム102および/もしくは第2のサーバシステム140と通信し得る1つまたは複数のクライアントデバイス(たとえば、クライアントデバイス120,122,124および126)も含み得る。ネットワーク130は、インターネット、ローカルエリアネットワーク(LAN)、ワイヤレスネットワーク、スイッチまたはハブ接続などのうちの1つまたは複数を含む任意のタイプの通信ネットワークであり得る。いくつかの実現例において、ネットワーク130は、たとえばピアツーピアワイヤレスプロトコル(たとえば、ブルートゥース(登録商標)、Wi-Fiダイレクトなど)などを使用したデバイス間のピアツーピア通信を含み得る。2つのクライアントデバイス120および122間のピアツーピア通信の一例は、矢印132によって示されている。
説明を容易にするために、図1は、サーバシステム102、サーバデバイス104、データベース106、第2のサーバシステム140および第2のサーバデバイス142のために1つのブロックを示し、クライアントデバイス120,122,124および126のために4つのブロックを示している。サーバブロック102,104,106,140および142は、複数のシステム、サーバデバイスおよびネットワークデータベースを表し得て、これらのブロックは、示されている構成とは異なる構成で設けられ得る。たとえば、サーバシステム102および/または第2のサーバシステム140は、ネットワーク130を介して他のサーバシステムと通信することができる複数のサーバシステムを表し得る。いくつかの実現例において、サーバシステム102および/または第2のサーバシステム140は、たとえばクラウドホスティングサーバを含み得る。いくつかの例では、データベース106および/または他のストレージデバイスは、サーバデバイス104から分離してネットワーク130を介してサーバデバイス104および他のサーバシステムと通信することができるサーバシステムブロック内に設けられ得る。
また、任意の数のクライアントデバイスがあってもよい。各クライアントデバイスは、任意のタイプの電子デバイス(たとえば、デスクトップコンピュータ、ラップトップコンピュータ、ポータブルもしくはモバイルデバイス、携帯電話、スマートフォン、タブレットコンピュータ、テレビ、TVセットトップボックスもしくはエンターテインメントデバイス、ウェアラブルデバイス(たとえば、ディスプレイグラスまたはゴーグル、腕時計、ヘッドセット、アームバンド、宝石類など)、パーソナルデジタルアシスタント(PDA)、メディアプレーヤ、ゲームデバイスなど)であり得る。クライアントデバイスの中には、データベース106と同様のローカルデータベースまたは他のストレージを有しているものもある。いくつかの実現例において、ネットワーク環境100は、示されているコンポーネントを全て有していなくてもよく、および/または、本明細書に記載されている要素の代わりにまたはそれらに加えて、他のタイプの要素を含む他の要素を有していてもよい。
さまざまな実現例において、エンドユーザU1,U2,U3およびU4は、それぞれのクライアントデバイス120,122,124および126を使用してサーバシステム102とおよび/または互いに通信し得る。いくつかの例では、ユーザU1,U2,U3およびU4は、それぞれのクライアントデバイスおよび/もしくはサーバシステム102もしくは第2のサーバシステム140上で実行されるアプリケーションを介して、ならびに/または、サーバシステム102もしくは第2のサーバシステム140上で実現されるネットワークサービス(たとえば、ソーシャルネットワークサービスもしくは他のタイプのネットワークサービス)を介して、互いに対話し得る。たとえば、それぞれのクライアントデバイス120,122,124および126は、1つまたは複数のサーバシステム(たとえば、システム102、第2のサーバシステム140)との間でデータをやりとりしてもよい。
いくつかの実現例において、サーバシステム102および/または第2のサーバシステム140は、適切なデータをクライアントデバイスに提供し得るため、各クライアントデバイスは、サーバシステム102もしくは第2のサーバシステム140にアップロードされたやりとりされたコンテンツもしくは共有のコンテンツ、および/または、ネットワークサービスを受信することができる。いくつかの例では、ユーザU1~U4は、電話もしくはビデオ会議、音声、映像もしくはテキストチャット、または他の通信モードもしくはアプリケーションを介して対話することができる。
サーバシステム102または第2のサーバシステム140によって実現されるネットワークサービスは、ユーザがさまざまな通信を実行して、リンクおよび関連性を形成して、共有コンテンツ(画像、テキスト、映像、音声および他のタイプのコンテンツなど)をアップロードおよび投稿して、ならびに/または、他の機能を実行することを可能にするシステムを含み得る。たとえば、クライアントデバイスは、クライアントデバイスに送信またはストリーミングされたコンテンツ投稿などの受信データを表示することができ、この受信データは、サーバおよび/またはネットワークサービスを介して異なるクライアントデバイスから(または、異なるクライアントデバイスから直接)発生し、または、サーバシステムおよび/またはネットワークサービスから発生する。いくつかの実現例において、クライアントデバイスは、たとえば上記のクライアントデバイス間のピアツーピア通信を使用して互いに直接通信することができる。いくつかの実現例において、「ユーザ」は、1つまたは複数のプログラムまたは仮想エンティティを含み、システムまたはネットワークと接続する人も含み得る。
いくつかの実現例において、クライアントデバイス120,122,124および/または126はいずれも、1つまたは複数のアプリケーションを提供することができる。たとえば、図1に示されるように、クライアントデバイス120は、画像アプリケーション156aと、1つまたは複数の他のアプリケーション154とを提供し得る。クライアントデバイス122~126も同様のアプリケーションを提供し得る。画像アプリケーション156aは、クライアントデバイス120のハードウェアおよび/またはソフトウェアを使用して実現されてもよい。異なる実現例では、画像アプリケーション156aは、たとえばクライアントデバイス120~124のいずれかで実行されるスタンドアロンのクライアントアプリケーションであってもよく、または、サーバシステム102上に提供される画像アプリケーション156bとともに機能してもよい。画像アプリケーション156aおよび画像アプリケーション156bは、画像および/または映像に関連するさまざまな機能を提供してもよい。たとえば、このような機能は、カメラを使用して画像または映像を取り込むこと、画像または映像を分析して1つまたは複数のタグを関連付けること、画像または映像を修正すること、画像または映像をライブラリまたはデータベース内に格納することなどのうちの1つまたは複数を含み得る。
いくつかの実現例において、画像アプリケーション156は、ユーザが画像および/または映像を格納しているライブラリまたはデータベースを管理することを可能にし得る。たとえば、ユーザは、クライアントデバイス(たとえば、クライアントデバイス120~126のいずれか)上の画像アプリケーション156aのバックアップ機能を使用して、このクライアントデバイス上のローカル画像または映像をサーバデバイス(たとえば、サーバデバイス104)にバックアップしてもよい。たとえば、ユーザは、バックアップ対象の1つまたは複数の画像または映像を手動で選択してもよく、またはバックアップ対象の画像または映像を特定するバックアップ設定を指定してもよい。画像または映像をサーバデバイスにバックアップすることは、たとえばサーバデバイス104上の画像アプリケーション156bと連携して、サーバによる格納のために画像または映像をサーバに送信することを含み得る。
いくつかの実現例において、映像は、バックアップのために映像をサーバに送信する前に映像のファイルサイズを小さくするように圧縮されてもよい。たとえば、このような圧縮は、映像のビットレート、映像の解像度または映像のフレームレートのうちの1つまたは複数を小さくするように映像をトランスコードすることを含み得る。トランスコードすることは、映像のファイルフォーマットを変更することも含んでもよい。映像のファイルサイズを小さくすることにより、クライアントデバイスからサーバに映像を送信するために使用されるネットワークの量が減少する。さらに、ファイルサイズが小さくなることにより、映像を元のフォーマットで格納する場合と比較して、映像をサーバに格納するのに必要な記憶容量の量が減少する。いくつかの実現例において、画像アプリケーション156は、たとえば中断が受信されたことに応答してトランスコーディング動作を一時停止して、その後トランスコーディング動作を再開することをサポートする映像トランスコーディングを実現し得る。
いくつかの実現例において、クライアントデバイス120は、1つまたは複数の他のアプリケーション154を含み得る。たとえば、他のアプリケーション154は、さまざまなタイプの機能、たとえばカレンダ、アドレスブック、電子メール、ウェブブラウザ、ショッピング、交通機関(たとえば、タクシー、電車、飛行機予約など)、エンターテインメント(たとえば、音楽プレーヤ、ビデオプレーヤ、ゲームアプリケーションなど)、ソーシャルネットワーキング(たとえば、メッセージングまたはチャット、音声/ビデオ通話、画像/映像共有など)などを提供するアプリケーションであってもよい。いくつかの実現例において、他のアプリケーション154のうちの1つまたは複数は、クライアントデバイス120上で実行されるスタンドアロンのアプリケーションであってもよい。いくつかの実現例において、他のアプリケーション154のうちの1つまたは複数は、他のアプリケーション154のデータおよび/または機能を提供するサーバシステム(たとえば、サーバシステム102および/または第2のサーバシステム140)にアクセスしてもよい。たとえば、第2のサーバシステム140によって提供されるものとして示されているアプリケーション144,146および148のうちのいずれかが他のアプリケーション154のうちの1つまたは複数にデータおよび/またはコマンドを提供してもよい。いくつかの実現例において、サーバアプリケーション144~148は、たとえばウェブブラウザまたは他のクライアント側プログラムを介してクライアントデバイスによってアクセスされるスタンドアロンのアプリケーションであってもよい。
クライアントデバイス120,122,124および/または126上のユーザインターフェイスは、ユーザコンテンツおよび他のコンテンツ(画像、映像、データ、他のコンテンツ、通信、プライバシ設定、通知、および他のデータを含む)の表示を可能にすることができる。このようなユーザインターフェイスは、クライアントデバイス上のソフトウェア、サーバデバイス上のソフトウェア、ならびに/または、サーバデバイス104および/もしくは第2のサーバデバイス142上で実行されるクライアントソフトウェアとサーバソフトウェアとの組み合わせ(たとえば、サーバシステム102および/もしくは第2のサーバデバイス142と通信するアプリケーションソフトウェアまたはクライアントソフトウェア)を使用して表示することができる。ユーザインターフェイスは、クライアントデバイスまたはサーバデバイスのディスプレイデバイス(たとえば、タッチスクリーンまたは他のディスプレイスクリーン、プロジェクタなど)によって表示することができる。いくつかの実現例において、サーバシステム上で実行されるアプリケーションプログラムは、クライアントデバイスと通信して、クライアントデバイスにおいてユーザ入力を受信し、クライアントデバイスにおいて視覚データ、音声データなどのデータを出力することができる。
本明細書に記載されている特徴の他の実現例は、任意のタイプのシステムおよび/またはサービスを使用することができる。たとえば、ソーシャルネットワーキングサービスの代わりにまたはそれに加えて、他のネットワーク接続された(たとえば、インターネットに接続された)サービスを使用することができる。いかなるタイプの電子デバイスも、本明細書に記載されている特徴を利用することができる。いくつかの実現例は、コンピュータネットワークから切り離されたり、コンピュータネットワークに断続的に接続されたりする1つまたは複数のクライアントまたはサーバデバイス上で、本明細書に記載されている1つまたは複数の特徴を提供することができる。いくつかの例において、ディスプレイデバイスを含むまたはディスプレイデバイスに接続されたクライアントデバイスは、クライアントデバイスにローカルなストレージデバイス上に格納された(たとえば、通信ネットワークを介して前もって受信された)コンテンツポストを表示することができる。
本明細書において参照される画像は、1つまたは複数の画素値(たとえば、色値、輝度値など)を有する画素を有するデジタル画像を含み得る。画像は、静止画像(たとえば、静止写真、単一のフレームを有する画像など)、動的画像(たとえば、動画、動画GIF、画像の一部が動画を含むが他の部分が静止しているシネマグラフなど)、または映像(たとえば、音声を含み得る画像または画像フレームのシーケンス)であり得る。本明細書の残りの部分では静止画像としての画像を参照するが、本明細書に記載されている技術は、動的画像、映像などにも適用可能であるということが理解され得る。たとえば、本明細書に記載されている実現例は、静止画像(たとえば、写真または他の画像)、映像または動的画像とともに使用することができる。
図2は、いくつかの実現例に係る、映像をトランスコードするための例示的な方法200を示すフロー図である。いくつかの実現例において、方法200は、たとえば、図1に示されるサーバシステム102上で実行することができる。いくつかの実現例において、方法200のうちの一部または全ては、図1に示される1つまたは複数のクライアントデバイス120,122,124または126、1つまたは複数のサーバデバイス、および/または、サーバデバイスおよびクライアントデバイスの両方で実行することができる。記載されている例において、実行するシステムは、1つまたは複数のデジタルプロセッサまたは処理回路(「プロセッサ」)と、1つまたは複数のストレージデバイス(たとえば、データベース106または他のストレージ)とを含む。いくつかの実現例において、1つまたは複数のサーバおよび/またはクライアントのさまざまなコンポーネントが方法200のさまざまなブロックまたは他の部分を実行することができる。いくつかの例において、第1のデバイスは、方法200のブロックを実行するものとして記載されている。いくつかの実現例は、結果またはデータを第1のデバイスに送信することができる1つまたは複数の他のデバイス(たとえば、他のクライアントデバイスまたはサーバデバイス)によって実行される方法200の1つまたは複数のブロックを有し得る。
いくつかの実現例において、方法200または方法の一部は、システムによって自動的に起動され得る。いくつかの実現例において、実行するシステムは、第1のデバイスである。たとえば、方法(または、その一部)は、定期的に実行されるか、または、1つまたは複数の特定のイベントまたは条件(たとえば、クライアントデバイスがアイドル状態に入る、バックアップされていない映像の閾値数、新たな映像がクライアントデバイスに取り込まれるまたは格納される、方法200の最後の実行から予め定められた期間が過ぎた、および/または、方法によって読み取られる設定において指定されることができる1つまたは複数の他の条件の発生)に基づいて実行され得る。
方法200は、ブロック202から開始し得る。ブロック202において、映像を取得する。たとえば、映像は、クライアントデバイス120~126のいずれかによって取り込まれるかまたは取得された映像であってもよい。いくつかの実現例において、映像は、複数のトラックを含み得る。たとえば、複数のトラックは、1つまたは複数の音声トラックおよび/または1つまたは複数の映像トラックを含み得る。1つまたは複数の音声トラックは、たとえば単一の音声トラック(モノサウンド)、2つの音声トラック(ステレオサウンド)、3つ以上の音声トラック(たとえば、サラウンドサウンドでは、各言語について1つのトラックなど)、またはその他の数の音声トラックを含み得る。1つまたは複数の映像トラックは、たとえば単一の映像トラック、2つの映像トラック(たとえば、三次元映像の場合)などを含み得る。いくつかの実現例において、映像は、1つまたは複数のメタデータトラックも含み得る。たとえば、メタデータトラックは、1つまたは複数の言語でのテキストキャプション、映像についての情報(たとえば、取り込み場所、取り込み時刻、MIMEフォーマット)などを含み得る。
映像トラックは、複数のフレームを含み得て、複数のフレームは、複数のキーフレームと、複数の非キーフレームとを含む。各映像フレームは、対応するタイムスタンプに関連付けられてもよい。複数のフレームは、それぞれのタイムスタンプに基づいて順番に配置されてもよい。いくつかの実現例において、キーフレームは、復号するために他の映像フレームを必要としないイントラコード化フレーム(I-フレーム)を含み得る。いくつかの実現例において、非キーフレームは、予測フレーム(P-フレーム)を含み得る。P-フレームの復号は、1つまたは複数の前のフレームからのデータを必要とし得る。いくつかの実現例において、非キーフレームは、双方向予測フレーム(B-フレーム)を含み得る。B-フレームの復号は、1つまたは複数の前のフレームおよび1つまたは複数の後続のフレームからのデータを必要とし得る。フレームの復号は、関連付けられたタイムスタンプに基づいて実行され得る。
いくつかの実現例において、映像は、可逆圧縮を使用して展開または圧縮される高品質映像であってもよい。高品質映像は、高いビットレートおよび高い解像度を有し得る。たとえば、スマートフォンまたは他のデバイスを使用して取り込まれる高品質映像は、4K映像(たとえば、4096画素の水平画素解像度を有する)、高精細度(HD)映像(たとえば、1080画素の水平画素解像度を有する)などであってもよい。ビットレートは、映像の色情報(たとえば、24ビットカラー、16ビットカラーなど)に対応し得る。高品質映像は、大量の記憶容量を必要とし得て、たとえば1分の4K映像は、数百メガバイトのストレージ(たとえば、300MB以上)を必要とし得て、1分の高精細度映像は、100メガバイトを超えるストレージを必要とし得る。さらに、たとえばサーバ(たとえば、サーバデバイス104)上での格納のためにネットワークを介して高品質映像を送信することは、相当な量のネットワークリソースを必要とし得る。
音声トラックは、複数の音声サンプルまたは音声フレームを含み得る。各音声サンプルまたは音声フレームは、対応するタイムスタンプに関連付けられてもよい。いくつかの実現例において、映像内の音声トラックおよび映像トラックのフレームは、同期されてもよい。たとえば、各音声フレームは、同一のタイムスタンプに関連付けられるように映像の特定のフレーム(たとえば、特定のキーフレーム(または、他のフレーム))に対応し得る。いくつかの実現例において、音声トラックおよび映像トラックは、映像フレームに関連付けられたタイムスタンプが、音声フレームに関連付けられたタイムスタンプとは異なるように、相互に独立していてもよい。たとえば、映像内の映像トラックが30フレーム毎秒(fps)のフレームレートを有する場合、30タイムスタンプ毎秒であり得るが、同一映像の音声トラックは、より少ない(たとえば、1、2、5など)タイムスタンプ毎秒を有し得る。
いくつかの実現例において、メタデータトラックもタイムスタンプに関連付けられてもよい。たとえば、キャプションまたはテキストメタデータがタイムスタンプに関連付けられてもよい。メタデータトラックに関連付けられたタイムスタンプは、映像トラックのものと同期されてもよく、または独立していてもよい。
いくつかの実現例において、映像をトランスコードすることは、たとえば映像を異なるビットレートおよび/または解像度に変換することを含み得る。いくつかの実現例において、トランスコードは、映像のフレームレートを変更することを含み得る。たとえば、使用される記憶容量の量を少なくするように映像を圧縮するため、サーバに映像をバックアップする前に映像を圧縮するために、方法200がクライアントデバイス上で実行される場合、トランスコードは、トランスコードした後に取得される出力映像が映像よりも小さなファイルサイズを有するように、ビットレートを小さくすること、映像の解像度を下げること、映像のフレームレートを小さくすることなどのうちの1つまたは複数を含み得る。さまざまな実現例において、トランスコーディングパラメータは、特定の圧縮率(たとえば、4:1)、特定のターゲット解像度(たとえば、4K映像からHD映像への変更など)などを対象にするように選択されてもよい。いくつかの実現例において、トランスコードは、映像のファイルタイプを変更してもよく、たとえば映像を、映像が格納されている元のファイルタイプとは異なるファイルタイプに変換してもよい。
いくつかの例において、映像をトランスコードすることは、映像の品質を実質的に変更することなしに、フォーマット変換のみを含み得る。たとえば、このようなトランスコードは、映像を、さまざまなデバイス上で再生がサポートされる標準的なフォーマットに変換するように実行されてもよく、映像を、ネットワークを介したストリーミングに適したフォーマットに変換するように実行されてもよい。いくつかの例において、トランスコードは、たとえばアップサンプリングによって映像の解像度を上げること、または、映像をより高い品質に変換することを含み得る。いくつかの実現例において、トランスコードは、映像の他の特性を調整すること(たとえば、アスペクト比が16:9の映像を4:3または平方アスペクト比に変換すること、映像を回転させることなど)を含み得る。
いくつかの実現例において、トランスコードは、映像の音声トラックを異なるフォーマットに変換すること、複数の音声トラックからより少ない数のトラックに統合または選択すること(たとえば、ステレオ音声トラックを統合してモノ音声トラックを取得すること)などを含み得る。いくつかの実現例において、音声トラックをトランスコードすることは、音声トラックを異なるフォーマットに変換することを含み得る。
いくつかの実現例において、複数の映像(たとえば、高品質映像)がトランスコーディングのために取得されてもよい。複数の映像が取得される場合、これらの映像は、トランスコーディングの前にソートされてもよい。たとえば、映像は、トランスコードされたファイルの一部が入手可能である映像が、トランスコードされたファイルの一部が入手可能でない映像よりも前に処理されるようにソートされてもよい。たとえば、トランスコードされたファイルの一部は、方法200を実行するデバイスのローカルストレージデバイス上に格納されてもよい。
いくつかの実現例において、映像は、作成時刻、最後に修正された時刻、または映像に関連付けられた他のパラメータに基づいてソートされてもよい。いくつかの実現例において、たとえば方法200の出力映像がバックアップのためにクライアントデバイスからサーバデバイスに送信される場合、映像は、バックアップキューから取得され得て、このバックアップキューと同一のソート順を有し得る。いくつかの実現例において、映像は、映像のファイルサイズ、ユーザ選択などに基づいてソートされてもよい。たとえば、ユーザがバックアップのために特定の映像を選択すると、この映像は、最初は、ソートされた順番に配置されてもよい。異なる実現例において、複数の映像をソートするために、ファイルサイズ、トランスコードされたファイルの一部の入手可能性、作成時刻、最後に修正された時刻、ユーザ選択などのさまざまな組み合わせが使用されてもよい。
いくつかの実現例において、映像は、映像に割り当てられたスコアに基づいてソートされてもよい。たとえば、このスコアは、訓練された機械学習モデルによって割り当てられてもよい。たとえば、スコアは、映像の重要度を示してもよい。機械学習モデルは、映像および/または映像メタデータの分析に基づいて映像のスコアを決定してもよい。ユーザが許可する場合、映像の分析は、1または複数の人または物体が映像内に描かれているか否か、物体のタイプ、映像内の人または物体の動きの法則、映像内に描かれている場所、映像が安定しているかブレを有するか、などを判断することを含み得る。
いくつかの実現例において、方法200は、複数回(たとえば、ソートされた複数の映像から選択された各映像について1回)実行されてもよい。ブロック202の後にブロック204が続く。
ブロック204において、映像に対応するトランスコードされたファイルの一部が入手可能であるか否かを判断する。たとえば、トランスコードされたファイルの一部がストレージデバイス上に格納されているか否かを判断するために、ストレージデバイス(たとえば、方法200を実行するコンピューティングデバイスのローカルストレージデバイス)にアクセスしてもよい。トランスコードされたファイルの一部がストレージデバイス上に格納されていない場合、トランスコードされたファイルの一部が入手可能でないと判断される。
トランスコードされたファイルの一部がストレージデバイス上に格納されている場合、トランスコードされたファイルの一部に関連付けられた構成設定が判断され得る。たとえば、構成設定は、トランスコードされたファイルの一部内のメタデータとして、別個の構成ファイルとして、またはデータベース内に格納されてもよい。たとえば、構成設定は、トランスコードされたファイルの一部内の1つまたは複数のトラックのフォーマット(たとえば、MIME(Multipurpose Internet Mail Extensions:多目的インターネットメール拡張仕様)フォーマット)を含み得る。このフォーマットは、標準的なフォーマット(たとえば、アドバンスドビデオコーディング(AVC)フォーマット、高効率ビデオコーディング(HEVC)フォーマットなど)であってもよい。別の例では、構成設定は、トランスコードされたファイルの一部がトランスコーダによって生成されたときにトランスコーダの構成として使用されるビットレートパラメータ、幅パラメータまたは高さパラメータを含み得る。いくつかの実現例において、構成設定は、ビットレートモードパラメータを含み得る。
トランスコードされたファイルの一部に関連付けられた構成設定を、映像をトランスコードするのに使用されるトランスコーダの現在の構成設定と比較して、構成設定が一致するか否かを判断し得る。構成設定が一致する場合、トランスコードされたファイルの一部が入手可能であると判断される。
構成設定が一致しない場合、トランスコードされたファイルの一部が入手可能でないと判断される。この場合、たとえトランスコードされたファイルの一部が存在していたとしても、トランスコードされたファイルの一部は、異なるトランスコーダ設定で符号化されているものとして識別され、その結果、トランスコーダからのさらなる出力と組み合わせることができないため、出力映像を生成するのにトランスコードされたファイルの一部を使用できない。いくつかの実現例において、構成設定が一致しない場合、トランスコードされたファイルの一部は、ストレージデバイスから削除されてもよい。トランスコードされたファイルの一部に関連付けられた構成ファイルが別個に格納される場合、このような構成ファイルも削除されてもよい。
トランスコードされたファイルの一部が入手可能であると判断された場合、ブロック204の後にブロック220が続く。トランスコードされたファイルの一部が入手可能でないと判断された場合、ブロック204の後にブロック206が続く。
ブロック220において、トランスコードされたファイルの一部を検索して、マルチプレクサに提供する。たとえば、トランスコードされたファイルの一部は、複数のトランスコードされたトラックを含み得て、各々は、映像の複数のトラックのそれぞれのトラックに対応する。マルチプレクサは、複数のトランスコードされたトラックを組み合わせて単一の出力ファイルにし得る。たとえば、出力ファイルは、MPEG-4映像ファイルであってもよい。
いくつかの実現例において、タイムスタンプが、トランスコードされたファイルの一部に関連付けられてもよく、検索されてもよい。タイムスタンプは、トランスコードされたファイルの一部に含まれる映像の映像トラックの最後のフレーム(たとえば、特定のキーフレーム)に対応し得る。たとえば、トランスコードされたファイルの一部が映像の最初(たとえば、時刻0秒)から中間点(たとえば、時刻t秒)までに対応するデータを含む場合、タイムスタンプは、中間点tを示し得る。いくつかの実現例において、単一のタイムスタンプがトランスコードされたファイルの一部に関連付けられてもよい。
いくつかの実現例において、タイムスタンプは、複数の時刻値を含み得る。たとえば、複数の時刻値の各々は、複数のトラックのそれぞれのトラックに対応し得る。いくつかの実現例において、たとえばトラックのデータが映像のシーケンシャルな再生に使用されるデータでない場合、1つまたは複数のトラック(たとえば、メタデータトラック)は、タイムスタンプに関連付けられなくてもよい。これらの実現例では、複数の時刻値が検索されてもよい。ブロック220の後にブロック206が続く。
ブロック206において、映像をトランスコードする。いくつかの実現例において、トランスコードは、二段階、すなわちデコーダ段およびそれに続くエンコーダ段で実行されてもよい。デコーダ段では、映像が復号(たとえば、格納されたフォーマットから、エンコーダ段に適したフォーマットに変換)され得る。たとえば、特定のコーデックを使用して映像が符号化される場合、デコーダ段は、映像を生のまたは非圧縮のデータストリームに復号してもよい。いくつかの実現例において、復号は、映像を復元することを含み得る。いくつかの実現例において、デコーダ段は、複数のデコーダを含み得る。たとえば、映像デコーダは、映像の1つまたは複数の映像トラックを復号するのに使用されてもよく、復号された音声は、映像の1つまたは複数の音声トラックを復号するのに使用されてもよい。いくつかの実現例において、たとえばターゲット音声フォーマットが映像内の音声トラックのものと同一である場合、または音声トラックがマルチプレクサによってサポートされるフォーマットである場合、映像の音声トラックは、復号されなくてもよい。デコーダ段の出力は、エンコーダ段に提供され得る。
エンコーダ段では、映像の生のまたは非圧縮のデータストリームは、たとえばエンコーダの構成設定に指定されたエンコーダのターゲットフォーマットに符号化されてもよい。いくつかの実現例において、符号化は、映像を圧縮することを含み得る。圧縮は、映像のビットレートを下げること、映像の解像度を下げること、映像のフレームレートを下げることなどのうちの1つまたは複数を含み得る。いくつかの実現例において、映像の音声部分を符号化することは、品質の変更(または、最小限の変更)なしに音声をターゲット音声フォーマットに符号化することを含み得る。
映像をトランスコードすることは、トランスコードされたファイルの一部が入手可能であるか否かに基づいて、映像全体または映像の一部に対して実行されてもよい。たとえば、トランスコードされたファイルの一部が入手可能でない場合、映像は、映像の最初から(たとえば、0秒から)映像の最後までトランスコードされてもよい。
トランスコードされたファイルの一部が入手可能である場合、映像の一部がトランスコードされてもよい。たとえば、トランスコードされる映像の一部は、トランスコードされたファイルの一部に関連付けられたタイムスタンプから開始してもよい。前もってトランスコードされてトランスコードされたファイルの一部に格納されなかった映像の一部を選択的にトランスコードすることにより、トランスコーディングの計算負荷が減少する。なぜなら、たとえば、復号およびその後のターゲットフォーマットへの符号化のために映像の一部だけをメモリにロードする必要があるからである。
いくつかの実現例において、タイムスタンプが複数の時刻値を含み、各々が映像内の複数のトラックのそれぞれのトラックに対応する場合、トランスコーディングは、各トラックについて別々に実行されてもよい。これらの実現例では、複数の時刻値のそれぞれの時刻値から開始して複数のトラックの各々を復号して、対応する生データを取得し得る。次いで、この生データを符号化して、対応する出力トラックを取得し得る。ブロック206の後にブロック208が続く。
ブロック208において、トランスコーディング中に中断が受信されたか否かが判断され得る。たとえば、方法200がクライアントデバイス上で実行される場合、クライアントデバイスのユーザがクライアントデバイスを起動する(たとえば、スマートフォンをロック解除する、音声もしくはタッチ入力を提供する、またはクライアントデバイスにアクセスする)と中断が受信されてもよい。また、中断は、たとえばクライアントデバイスが立ち上がってネットワークにアクセスしたとき、通知を表示するためなど、システムイベントとして受信されてもよい。中断が受信された場合、ブロック208の後にブロック210が続く。中断が受信されない場合、ブロック208の後にブロック212が続く。
ブロック210において、トランスコードされたファイルの一部を保存する。たとえば、トランスコーディング中に映像の最後に到達する前に中断が受信される場合、トランスコーディングが完了した映像の部分がトランスコードされたファイルの一部として格納されてもよい。いくつかの実現例において、予め定められたスキームを使用して、トランスコードされたファイルの一部のためのファイル名および格納場所が選択されてもよい。たとえば、ファイル名は、ファイルが映像に対応するトランスコードされたファイルの一部である(たとえば、「video1_partial」)ことを示すフレーズ(たとえば、「partial」)を付加された映像の映像ファイルのファイル名(たとえば、「video1.extension」)を含むように選択されてもよい。映像について複数のトランスコードされたファイルの一部が格納される場合、シーケンス番号(たとえば、「video1_partial_1」、「video1_partial_2」など)が使用されてもよい。ファイル名および格納場所は、たとえばブロック204を参照して上記したようにトランスコードされたファイルの一部が入手可能であるか否かを判断するのに利用することができる。いくつかの実現例において、データベースは、映像のファイル名および対応するトランスコードされたファイルの一部のファイル名を格納し得る。
中断が受信されたときのトランスコーダの出力は、複数の部分出力トラックを含み得る。各部分出力トラックは、映像の特定のトラックに対応し得る。たとえば、トランスコードされたファイルの一部は、標準的なフォーマット(たとえば、MP4フォーマットなどのトランスコーディングのターゲットフォーマット)の映像ファイルであってもよい。いくつかの実現例において、映像のトランスコーディング中に複数の中断が受信される場合、複数のトランスコードされたファイルの一部が保存されてもよく、たとえば各トランスコードされたファイルの一部は、前の中断(または、映像の最初)と現在の中断との間にトランスコードされた映像の特定の部分に対応する。これらの実現例では、各トランスコードされたファイルの一部は、それぞれの関連付けられたタイムスタンプを有し得て、映像が次に処理されるときに(たとえば、ブロック202から開始して)順番に処理され得る。
いくつかの実現例において、最初の中断(たとえば、時刻0からt1までのデータを含む)の後に取得されたトランスコードされたファイルの一部は、トランスコーディングの部分出力、たとえば対応するタイムスタンプ(t2)を有する、次の中断までの(たとえば、時刻t1からt2までの(0<t1<t2))映像の後続のトランスコードされた部分を追加するように更新されてもよい。これらの実現例では、映像が次に処理されるときに(たとえば、ブロック202から開始して)、トランスコーディングは、タイムスタンプt2から開始することができる。いくつかの実現例において、タイムスタンプは、トランスコードされたファイルの一部内、別個のファイル内またはデータベース内にメタデータとして格納され得る。ブロック210において格納されたトランスコードされたファイルの一部は、方法200の後続の反復(たとえば、ブロック202の次の実行)において処理され得る。
ブロック208においてトランスコーディングが中断されないと判断された場合、ブロック208の後にブロック212が続く。ブロック212において、トランスコーディングが完了したか否か(たとえば、映像の最後に到達したか否か)を判断する。トランスコーディングが完了していない場合、ブロック212の後にブロック206が続いて、映像を符号化し続ける。トランスコーディングが完了した場合、ブロック212の後にブロック214が続く。
ブロック214において、トランスコードされた出力データをマルチプレクサに提供して、出力映像をマルチプレクサから取得する。マルチプレクサは、複数のトランスコードされたトラックを組み合わせて単一の出力ファイルにし得る。さらに、映像の一部(たとえば、トランスコードされたファイルの一部に関連付けられたタイムスタンプから開始する部分)に対してトランスコーディングが実行される場合、マルチプレクサは、トランスコードされた出力データをトランスコードされたファイルの一部と組み合わせる。マルチプレクサの出力は、ターゲット映像フォーマットの出力映像ファイルである。たとえば、出力ファイルは、MPEG-4映像ファイルであってもよい。ブロック214の後にブロック216が続く。
ブロック216において、出力映像を、たとえば方法200を実行するデバイスのストレージデバイスに保存する。たとえば、方法200がクライアントデバイス120~126上で実行される場合、出力映像は、クライアントデバイスのローカルストレージデバイスに保存される。いくつかの実現例において、出力映像は、映像の解像度よりも低い解像度および/または映像のビットレートよりも低いビットレートを有してもよい。ブロック216の後にブロック218が続く。
ブロック218において、トランスコードされたファイルの一部を削除し得る。トランスコードされたファイルの一部は、中断後にトランスコーディングを再開するのに使用されるため、出力映像が取得されると、記憶容量を取り戻すためにトランスコードされたファイルの一部はストレージデバイスから削除され得る。トランスコードされたファイルの一部に関連付けられた構成ファイルが別個に格納される場合には、このような構成ファイルも削除され得る。
方法200のさまざまなブロックは、組み合わせられてもよく、複数のブロックに分割されてもよく、または並行して実行されてもよい。たとえば、複数の映像を同時に処理して対応する出力映像を取得するようにブロック204~220は並行して実行されてもよい。別の例において、マルチプレクサがトランスコードされたファイルの一部を処理している間に追加のトランスコードされた映像を並行して取得するように、ブロック220はブロック206と並行して実行されてもよい。さらに、ブロック206において、映像の複数のトラックを並行して処理してもよい。
いくつかの実現例において、方法200の1つまたは複数のブロックは、方法200を実行するデバイスの中央処理装置(CPU)またはグラフィックス処理装置(GPU)またはアクセラレータ上で実行されてもよい。たとえば、ブロック206は、映像復号および符号化に適しているであろうGPUまたはアクセラレータ上で実行されてもよく、方法200の他のブロックは、CPU上で実行されてもよい。
上記の説明では入力映像よりもサイズが小さい出力映像を参照しているが、他の目的で(たとえば、圧縮なしにフォーマット変換を実行する目的で、映像を異なるアスペクト比にリターゲットする目的で、映像を低い解像度またはビットレートから高い解像度またはビットレートにアップコンバートする目的で、映像をトリミングする目的で、映像を回転させる目的で、映像にフィルタを適用する目的で、映像にトラックを追加する目的で、映像からトラックを除去する目的で、など)映像をトランスコードするように方法200が実行されてもよいということが理解されるであろう。
方法200またはその一部は、追加の入力を使用して任意の回数繰り返されてもよい。たとえば、方法200は、ブロック202において取得された全ての映像を処理して対応する出力映像を取得するまで繰り返されてもよい。
図3は、いくつかの実現例に係る、映像をトランスコードするための例示的な処理パイプライン300を示す図である。処理パイプライン300は、エクストラクタ306と、トランスコーダ308と、マルチプレクサ310とを含み得る。いくつかの実現例において、トランスコードされたファイルの一部が入手可能である場合には、トランスコードされたを取得するための処理は二段階で実行され得る。
第1段階において、トランスコードされたファイルの一部302が入力としてマルチプレクサ310に提供される。トランスコードされたファイルの一部302は、複数のトラックを含み得て、各トラックは、映像304の特定のトラックに対応する。たとえば、映像304全体が処理される前にトランスコーディングが中断される場合、トランスコードされたファイルの一部302は、トランスコーダ308の部分出力として取得されてもよい。マルチプレクサ310は、トランスコードされたファイルの一部302からの複数のトラックを組み合わせて、出力映像312を取得し得る。たとえば、マルチプレクサ310は、トランスコードされたファイルの一部302から取得された個々の符号化されたトラックをファイルコンテナ(たとえば、MP4ファイル)にパッケージングしてもよい。トランスコードされたファイルの一部302は、いかなるトランスコーディング動作も実行することなく、マルチプレクサ310に提供される。この段階では、出力映像312は、映像304の最初から、トランスコードされたファイルの一部302に関連付けられたタイムスタンプまでのトラックを含み得る。
第2段階において、映像304が入力としてエクストラクタ306に提供される。エクストラクタ306は、トランスコードされたファイルの一部302に関連付けられたタイムスタンプから開始する映像304のトラックを抽出し得る。いくつかの実現例において、エクストラクタ306は、タイムスタンプより前の最も近いキーフレームから開始する映像304の映像トラックに関連付けられたフレーム(たとえば、トランスコードされたファイルの一部302に関連付けられたタイムスタンプに一致するタイムスタンプに関連付けられたキーフレーム、またはタイムスタンプが一致しない場合には直前のキーフレーム)を取得し得る。エクストラクタ306は、映像304の最後に到達するまで、たとえばシーケンシャルな順序でフレームを抽出し続け得る。同様に、エクストラクタ306は、映像304の他のトラック(たとえば、他の映像トラック、音声トラック、メタデータトラックなど)のためのフレームを抽出し得る。エクストラクタ306は、取得されたフレームをトランスコーダ308に提供し得る。
トランスコーダ308は、デコーダ段と、エンコーダ段とを含み得る。トランスコーダ308は、エクストラクタ306によって提供されたフレームを復号し、復号されたフレームを、たとえばトランスコーダ308の構成設定に指定されたターゲットフォーマットに符号化し得る。トランスコーダ308は、映像304の各トラックに対応する複数の出力フレームを生成し得る。トランスコーダ308は、エクストラクタ306によって提供される映像の1つまたは複数のトラックのための出力フレームを生成し得る。トランスコーダ308は、映像304の複数のトラックのための出力フレームをマルチプレクサ310に提供し得る。マルチプレクサ310は、トランスコーダ出力からの複数のトラックを組み合わせて、出力映像312を取得し得る。たとえば、マルチプレクサ310は、トランスコーダ308から取得された個々の符号化されたトラックをファイルコンテナ(たとえば、MP4ファイル)にパッケージングしてもよい。
いくつかの実現例において、処理パイプライン300のさまざまな動作は、順番に実行されてもよく、たとえば、第2段階が開始される前に第1段階が完了してもよい。たとえば、これらの実現例では、マルチプレクサ310は、最初に、トランスコードされたファイルの一部302から取得された個々の符号化されたトラックをファイルコンテナにパッケージングし、次いでトランスコーダ308から取得された個々の符号化されたトラックをファイルコンテナに追加してもよい。
いくつかの実現例において、たとえばトランスコーダ308および/またはマルチプレクサ310が十分なバッファ容量を有する場合、第1段階および第2段階は、並行して実行されてもよい。たとえば、マルチプレクサ310は、トランスコーダ308がトランスコーディングを実行するのと同時に、トランスコードされたファイルの一部302から取得された個々の符号化されたトラックを処理してもよく、トランスコーダ308の出力は、待ち行列に入れられるか、またはマルチプレクサ310による処理からバッファリングされる。したがって、マルチプレクサ310は、フレームのシーケンシャルな順序で映像を処理する。いくつかの実現例において、処理パイプライン300が中断されると、中断時の出力映像312は、トランスコードされたファイルの一部302に取って代わり得る。
いくつかの実現例において、エクストラクタ306は、トランスコードされたファイルの一部302に関連付けられたタイムスタンプによって示される対応する時刻値(再開点)において映像304のトラックを抽出することをサポートしてもよい。これらの実現例では、対応する時刻値から開始する各トラックが抽出されてトランスコーダ308に提供される。さらに、各トラックの時刻値は、時刻値が当該トラックのキーフレームに対応するように選択されてもよく、その結果、エクストラクタ306によって抽出されたフレームは、トランスコーダ308によって成功裏に復号されることができる。たとえば、映像304が、I-フレーム、P-フレームおよびB-フレームを含む映像トラックを含む場合、トランスコードされたファイルの一部302の時刻値は、I-フレームに対応し得る。
いくつかの実現例において、エクストラクタ306は、映像304の全てのトラックが同一の開始点(たとえば、トランスコードされたファイルの一部302に関連付けられたタイムスタンプ)で抽出されるように、単一のタイムスタンプから開始するトラックを抽出することをサポートしてもよい。場合によっては、タイムスタンプは、トラックのうちの1つまたは複数のトラックのキーフレームに対応しなくてもよい。これらの実現例では、抽出されたトラックがトランスコーダ308によって復号され得ることを確実にするために、出力映像312は、キーフレームにおいてキーフレームチャンクに書き込まれ、それにより、処理パイプライン300が中断されると、出力映像312(トランスコードされたファイルの一部302として使用されるか、または前のトランスコードされたファイルの一部302に取って代わる)は、複数のトラックにわたるキーフレームに対応する時刻で終了する。たとえば、マルチプレクサ310は、さまざまなトラックにわたって同期されるキーフレームに到達するまで、さまざまなトラックからのトランスコードされたフレームをバッファリングしてもよい。これらの実現例では、追加のフレームがトランスコーダ308によって生成されると、マルチプレクサ310は、このようなフレームを廃棄する。これらの実現例も、同一の長さの複数のトラックをサポートする任意のフォーマットでトランスコードされたファイルの一部を格納できるという点で有益であろう。
処理パイプライン300は、たとえば中断されたトランスコーディング動作中に生成されたトランスコードされたファイルの一部302を出力映像312の生成に利用する。トランスコードされたファイルの一部を再使用することにより、計算コストが減少する。その理由は、たとえば、以前にトランスコードされたフレームは、中断の受信時に廃棄されるのではなく、格納されて再使用されるからである。このような計算コストの減少により、プロセッサ使用量を少なくすることができ、エネルギ使用量を少なくすることができる。処理パイプライン300は、バッテリ駆動のデバイス上で処理パイプライン300が実行される場合に、バッテリ寿命の向上を可能にすることができる。また、処理パイプライン300は、トランスコーディングの速度を向上させることができる。なぜなら、映像304の以前に処理された部分をエクストラクタ306およびトランスコーダ308によって再び処理しなくてもよいからである。
図4は、本明細書に記載されている1つまたは複数の特徴を実現するために使用され得る例示的なデバイス400のブロック図である。一例において、デバイス400は、クライアントデバイス(たとえば、図1に示されるクライアントデバイス115のうちのいずれか)を実現するために使用され得る。代替的に、デバイス400は、サーバデバイス(たとえば、サーバ101)を実現することができる。いくつかの実現例において、デバイス400は、クライアントデバイス、サーバデバイス、またはクライアントデバイスおよびサーバデバイスの両方を実現するために使用されてもよい。デバイス400は、上記の任意の好適なコンピュータシステム、サーバ、または他の電子もしくはハードウェアデバイスであり得る。
本明細書に記載されている1つまたは複数の方法は、任意のタイプのコンピューティングデバイス上で実行可能なスタンドアロンのプログラム、ウェブブラウザ上で実行されるプログラム、モバイルコンピューティングデバイス(たとえば、携帯電話、スマートフォン、タブレットコンピュータ、ウェアラブルデバイス(腕時計、アームバンド、宝石類、帽子、バーチャルリアリティゴーグルまたはグラス、拡張現実ゴーグルまたはグラス、頭部装着型ディスプレイなど)、ラップトップコンピュータなど)上で実行されるモバイルアプリケーション(「アプリ」)において実行することができる。一例では、クライアント/サーバアーキテクチャを使用することができ、たとえば(クライアントデバイスとしての)モバイルコンピューティングデバイスは、ユーザ入力データをサーバデバイスに送信し、最終的な出力データをサーバから受信して、出力する(たとえば、表示する)。別の例では、モバイルコンピューティングデバイス上のモバイルアプリ(および/または、他のアプリ)内で全ての計算を実行することができる。別の例では、モバイルコンピューティングデバイスと1つまたは複数のサーバデバイスとの間で計算を分割することができる。
いくつかの実現例において、デバイス400は、プロセッサ402と、メモリ404と、入力/出力(I/O)インターフェイス406とを含む。プロセッサ402は、プログラムコードを実行してデバイス400の基本動作を制御するための1つまたは複数のプロセッサおよび/または処理回路であり得る。「プロセッサ」は、データ、信号または他の情報を処理する任意の好適なハードウェアシステム、メカニズムまたはコンポーネントを含む。プロセッサは、1つまたは複数のコアを有する(たとえば、シングルコア構成、デュアルコア構成、またはマルチコア構成の)汎用中央処理装置(CPU)を備えたシステム、複数の処理装置(たとえば、マルチプロセッサ構成)を備えたシステム、グラフィックス処理装置(GPU)を備えたシステム、フィールドプログラマブルゲートアレイ(FPGA)を備えたシステム、特定用途向け集積回路(ASIC)を備えたシステム、コンプレックスプログラマブルロジックデバイス(CPLD)を備えたシステム、機能を実現するための専用の回路を備えたシステム、ニューラルネットワークモデルベースの処理を実行するための特別目的プロセッサを備えたシステム、ニューラル回路を備えたシステム、行列計算(たとえば、行列乗算)用に最適化されたプロセッサを備えたシステム、または他のシステムを含み得る。いくつかの実現例において、プロセッサ402は、ニューラルネットワーク処理を実現する1つまたは複数のコプロセッサを含み得る。いくつかの実現例において、プロセッサ402は、データを処理して確率論的出力を生成するプロセッサであってもよく、たとえば、プロセッサ402によって生成される出力は、予想される出力からある範囲内で不正確である場合もあれば、正確である場合もある。処理は、特定の地理的場所に限定されるべきではなく、または時間的制約を有するべきではない。たとえば、プロセッサは、その機能を「リアルタイム」、「オフライン」、「バッチモード」などで実行してもよい。処理の一部は、異なる時刻に、異なる場所で、異なる(または、同一の)処理システムによって実行されてもよい。コンピュータは、メモリと通信する任意のプロセッサであってもよい。
メモリ404は、一般に、プロセッサ402によるアクセスのためにデバイス400内に設けられており、メモリ404は、プロセッサによる実行のための命令を格納することに適しており、かつ、プロセッサ402から分離して位置しているおよび/またはプロセッサ402と一体化している任意の好適なプロセッサ読取可能記憶媒体(ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、電気的に消去可能なリードオンリメモリ(EEPROM)、フラッシュメモリなど)であってもよい。メモリ404は、プロセッサ402によってサーバデバイス400上で動作するソフトウェアを格納することができ、このソフトウェアは、オペレーティングシステム408と、アプリケーション412と、アプリケーションデータ414とを含む。アプリケーション412は、画像アプリケーション、データ表示エンジン、ウェブホスティングエンジン、画像表示エンジン、通知エンジン、ソーシャルネットワーキングエンジンなどのアプリケーションを含み得る。いくつかの実現例において、アプリケーション412の各々は、本明細書に記載されている機能(たとえば、図2の方法の一部または全て)をプロセッサ402が実行することを可能にする命令を含み得る。
他のアプリケーション412は、たとえば、画像アプリケーション、メディア表示アプリケーション、通信アプリケーション、ウェブホスティングエンジンまたはアプリケーション、マッピングアプリケーション、メディア共有アプリケーションなどを含み得る。本明細書に開示されている1つまたは複数の方法は、いくつかの環境およびプラットフォームで、(たとえば、任意のタイプのコンピューティングデバイス上で実行可能なスタンドアロンのコンピュータプログラムとして、ウェブページを有するウェブアプリケーションとして、モバイルコンピューティングデバイス上で実行されるモバイルアプリケーション(「アプリ」)として、など)動作することができる。
代替的に、メモリ404内のソフトウェアはいずれも、その他の好適な格納場所またはコンピュータ読取可能媒体上に格納されることができる。また、メモリ404(および/または、他の接続されたストレージデバイス)は、1つまたは複数のメッセージ、1つまたは複数の分類法、電子百科事典、辞書、類語辞典、ナレッジベース、メッセージデータ、文法、ユーザ設定、および/または、本明細書に記載されている特徴において使用される他の命令およびデータを格納することができる。メモリ404およびその他のタイプのストレージ(磁気ディスク、光ディスク、磁気テープまたは他の有形のメディア)は、「ストレージ」または「ストレージデバイス」であると考えることができる。
I/Oインターフェイス406は、サーバデバイス400を他のシステムおよびデバイスと接続することを可能にするための機能を提供することができる。接続されたデバイスは、デバイス400の一部として含まれる場合もあれば、デバイス400とは別であってデバイス400と通信する場合もある。たとえば、ネットワーク通信デバイスとストレージデバイス(たとえば、メモリおよび/またはデータベース106)と入力/出力デバイスとは、I/Oインターフェイス406を介して通信することができる。いくつかの実現例において、I/Oインターフェイスは、入力デバイス(キーボード、ポインティングデバイス、タッチスクリーン、マイクロフォン、カメラ、スキャナ、センサなど)および/または出力デバイス(ディスプレイデバイス、スピーカデバイス、プリンタ、モータなど)などのインターフェイスデバイスに接続することができる。
I/Oインターフェイス406に接続することができる接続されたデバイスのいくつかの例は、コンテンツ(たとえば、画像、映像、および/または、本明細書に記載されている出力アプリケーションのユーザインターフェイス)を表示するのに使用することができる1つまたは複数のディスプレイデバイス420を含み得る。ディスプレイデバイス420は、ローカル接続(たとえば、ディスプレイバス)を介して、および/または、ネットワーク化された接続を介してデバイス400に接続可能であり、任意の好適なディスプレイデバイスであり得る。ディスプレイデバイス420は、任意の好適なディスプレイデバイス(LCD、LEDもしくはプラズマディスプレイスクリーン、CRT、テレビ、モニタ、タッチスクリーン、3Dディスプレイスクリーン、または他のビジュアルディスプレイデバイスなど)を含み得る。たとえば、ディスプレイデバイス420は、モバイルデバイス上に設けられたフラットディスプレイスクリーン、ゴーグルもしくはヘッドセットデバイス内に設けられた複数のディスプレイスクリーン、またはコンピュータデバイスのためのモニタスクリーンであり得る。
I/Oインターフェイス406は、他の入力および出力デバイスに接続することができる。いくつかの例は、画像を取り込むことができる1つまたは複数のカメラを含む。いくつかの実現例は、音声を(たとえば、取り込まれた画像、音声コマンドなどの一部として)取り込むためのマイクロフォン、音声を出力するためのオーディオスピーカデバイス、または他の入力および出力デバイスを提供することができる。
説明を容易にするために、図4は、プロセッサ402、メモリ404、I/Oインターフェイス406およびソフトウェアブロック408および412の各々について1つのブロックを示している。これらのブロックは、1つまたは複数のプロセッサまたは処理回路、オペレーティングシステム、メモリ、I/Oインターフェイス、アプリケーションおよび/またはソフトウェアモジュールを表し得る。他の実現例において、デバイス400は、示されているコンポーネントを全て有していなくてもよく、および/または、本明細書に示されている要素の代わりに、もしくはそれらに加えて、他のタイプの要素を含む他の要素を有していてもよい。いくつかのコンポーネントは、本明細書におけるいくつかの実現例に記載されているブロックおよび動作を実行するものとされているが、環境100、デバイス400、同様のシステム、またはこのようなシステムに関連付けられた任意の好適なプロセッサの任意の好適なコンポーネントまたはコンポーネントの組み合わせが、記載されているブロックおよび動作を実行してもよい。
本明細書に記載されている方法は、コンピュータ上で実行可能なコンピュータプログラム命令またはコードによって実現することができる。たとえば、このコードは、1つまたは複数のデジタルプロセッサ(たとえば、マイクロプロセッサまたは他の処理回路)によって実行することができ、コンピュータプログラム製品上に格納されることができ、コンピュータプログラム製品は、磁気記憶媒体、光記憶媒体、電磁記憶媒体または半導体記憶媒体などの非一時的なコンピュータ読取可能媒体(たとえば、記憶媒体)を含み、半導体またはソリッドステートメモリ、磁気テープ、リムーバブルコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、フラッシュメモリ、剛性磁気ディスク、光ディスク、ソリッドステートメモリドライブなどを含む。また、プログラム命令は、たとえばサーバ(たとえば、分散型システムおよび/またはクラウドコンピューティングシステム)から送達されたソフトウェア・アズ・ア・サービス(SaaS)の形式の電子信号内に収容されて電子信号として提供されることもできる。代替的に、1つまたは複数の方法は、ハードウェア(論理ゲートなど)またはハードウェアとソフトウェアとの組み合わせで実現することができる。例示的なハードウェアは、プログラマブルプロセッサ(たとえば、フィールドプログラマブルゲートアレイ(FPGA)、コンプレックスプログラマブルロジックデバイス)、汎用プロセッサ、グラフィックスプロセッサ、特定用途向け集積回路(ASIC)などであり得る。1つまたは複数の方法は、システム上で実行されるアプリケーションの一部もしくはコンポーネントとして、または、他のアプリケーションおよびオペレーティングシステムとともに実行されるアプリケーションもしくはソフトウェアとして実行することができる。
説明はその特定の実現例に関連付けて記載されてきたが、これらの特定の実現例は、例示に過ぎず、限定的なものではない。これらの例に示されている概念は、他の例および実現例にも適用されてもよい。
本明細書に記載されている特定の実現例が、ユーザについての個人情報(たとえば、ユーザデータ、ユーザのソーシャルネットワークについての情報、ユーザの場所および当該場所における時刻、ユーザのバイオメトリック情報、ユーザの行動および人口統計情報)を収集または使用し得る状況では、情報が収集されるか否か、個人情報が格納されるか否か、個人情報が使用されるか否か、ユーザについての情報がどのように収集され、格納され、使用されるかを制御する1つまたは複数の機会がユーザに提供される。すなわち、本明細書に記載されているシステムおよび方法は、特にユーザ個人情報を収集、格納および/または使用するための明確な認可を関連するユーザから受信すると、ユーザ個人情報を収集、格納および/または使用する。たとえば、プログラムまたは特徴が、特定のユーザまたは当該プログラムまたは特徴に関連する他のユーザについてのユーザ情報を収集するか否かということに対する制御がユーザに提供される。個人情報を収集される各ユーザは、当該ユーザに関連する情報収集に対する制御を可能にし、情報が収集されるか否かおよび情報のどの部分が収集されるかについて許可または認可を提供する1つまたは複数のオプションを提示される。たとえば、ユーザは、通信ネットワークを介した1つまたは複数のこのような制御オプションを提供され得る。また、特定のデータは、個人を特定できる情報が除去されるように、格納または使用される前に1つまたは複数の方法で処理されてもよい。一例として、ユーザのアイデンティティは、個人を特定できる情報を割り出すことができないように処理されてもよい。別の例として、ユーザデバイスの地理的場所は、ユーザの特定の場所を割り出すことができないように、より大きな領域に一般化されてもよい。
なお、当業者に公知であるように、本開示に記載されている機能ブロック、動作、特徴、方法、装置およびシステムは、システム、装置および機能ブロックのさまざまな組み合わせに統合されたり分割されたりしてもよい。任意の好適なプログラミング言語およびプログラミング技術を使用して、特定の実現例のルーチンを実現してもよい。さまざまなプログラミング技術(たとえば、手続き型またはオブジェクト指向)が利用されてもよい。ルーチンは、単一の処理装置上で実行されてもよく、または複数のプロセッサ上で実行されてもよい。ステップ、動作または計算は、特定の順序で示されているが、この順序は、さまざまな特定の実現例において変更されてもよい。いくつかの実現例において、本明細書にシーケンシャルであるように示されている複数のステップまたは動作は、同時に実行されてもよい。

Claims (20)

  1. 映像をトランスコードするためのコンピュータによって実行される方法であって、
    前記映像を取得するステップを備え、前記映像は、複数のトラックを含み、前記方法はさらに、
    前記映像についてのトランスコーダの現在の構成設定が、トランスコードされたファイルの一部に関連付けられた構成設定と一致すると判断することに基づいて、前記映像に対応する前記トランスコードされたファイルの一部が入手可能である判断するステップと、
    前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の一部をトランスコードするステップとを備え、前記映像の前記一部は、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプに対して開始し、前記方法はさらに、前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせて、出力映像を生成するステップを備える、方法。
  2. 前記出力映像は、前記映像の解像度よりも低い解像度、または、前記映像のビットレートよりも低いビットレートのうちの少なくとも1つを有する、請求項1に記載のコンピュータによって実行される方法。
  3. 前記映像の最初から前記トランスコーダによって前記映像をトランスコードするステップと、
    前記トランスコーダによる前記映像のトランスコード中に第1の中断を受信するステップと、
    前記第1の中断に応答して、前記トランスコーダの第1の出力を前記トランスコードされたファイルの一部として保存して、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプを格納するステップとをさらに備え、前記タイムスタンプは、前記第1の中断の時間に対応し、前記方法はさらに、
    前記トランスコーダによる前記映像の前記一部の前記トランスコード中に第2の中断を受信するステップと、
    前記第2の中断に応答して、前記トランスコーダの第2の出力を前記トランスコードされたファイルの一部に追加することによって前記トランスコーダの前記第2の出力を保存して、前記第2の中断の時間に対応する第2のタイムスタンプを格納するステップと、
    前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の第2の部分をトランスコードするステップとを備え、前記映像の前記第2の部分は、前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプに対して開始し、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせるステップは、前記トランスコードされたファイルの一部と前記映像の前記第2の部分とを組み合わせるステップを含む、請求項1または2に記載のコンピュータによって実行される方法。
  4. 前記トランスコーダの前記第1の出力は、複数の部分出力トラックを含み、各部分出力トラックは、前記映像の前記複数のトラックの特定のトラックに対応し、前記方法はさらに、前記第1の中断に応答して、前記トランスコードされたファイルの一部に関連付けられた構成設定を保存するステップを備え、前記構成設定は、
    前記複数の部分出力トラックの各々のフォーマット、または
    ビットレートパラメータ、幅パラメータまたは高さパラメータのうちの1つまたは複数
    のうちの1つまたは複数を含む、請求項3に記載のコンピュータによって実行される方法。
  5. トランスコードのために前記映像を複数の映像から選択するステップをさらに備え、トランスコードのために、前記複数の映像のうちの、トランスコードされたファイルの一部が入手可能である映像が、前記複数の映像のうちの、トランスコードされたファイルの一部が入手可能でない映像の前に選択されるように、前記複数の映像はソートされる、請求項1から4のいずれか1項に記載のコンピュータによって実行される方法。
  6. 前記トランスコーダによる前記映像の前記一部のトランスコード中に中断を受信するステップと、
    前記中断に応答して、前記トランスコーダの部分出力を含むように前記トランスコードされたファイルの一部を更新するステップとをさらに備える、請求項1から5のいずれか1項に記載のコンピュータによって実行される方法。
  7. 前記複数のトラックは、少なくとも1つの音声トラックと、少なくとも1つの映像トラックとを含み、前記少なくとも1つの映像トラックは、複数のキーフレームと、複数の非キーフレームとを含み、各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられる、請求項1から6のいずれか1項に記載のコンピュータによって実行される方法。
  8. 前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプが前記複数のトラックのうちの1つまたは複数のトラックの前記複数のキーフレームに対応しないと判断するステップをさらに備え、
    前記トランスコーダによってトランスコードされる前記映像の前記一部は、前記複数のキーフレームのうちの、前のキーフレームから開始し、前記前のキーフレームは、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプの直前である、請求項7に記載のコンピュータによって実行される方法。
  9. 前記複数のトラックは、メタデータトラックをさらに含む、請求項に記載のコンピュータによって実行される方法。
  10. 前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプが前記複数のトラックのうちの1つまたは複数のトラックの前記複数のキーフレームに対応しないと判断するステップをさらに備え、
    前記出力映像を生成するステップは、前記複数のキーフレームの各キーフレームについて、
    前記複数のトラックのうちの1つまたは複数のトラックからのトランスコードされたフレームをバッファリングするステップと、
    前記キーフレームに到達して、前記キーフレームが、前記複数のトラックにわたって同期された同期キーフレームである場合、前記出力映像のチャンクをストレージに書き込むステップとを含み、前記チャンクは、前のキーフレームと前記キーフレームとの間に提供され、前記出力映像を生成するステップはさらに、前記複数のキーフレームの各キーフレームについて、
    前記同期キーフレームの後に前記トランスコードによって生成された1つまたは複数の追加フレームを廃棄するステップを含む、請求項に記載のコンピュータによって実行される方法。
  11. 前記タイムスタンプは、複数の時刻値を含み、各時刻値は、前記複数のトラックのそれぞれのトラックに対応し、
    前記映像の前記一部をトランスコードするステップは、
    前記複数の時刻値のそれぞれの時刻値から開始する前記複数のトラックの各々を復号して、対応する生データを取得するステップと、
    記復号された複のトラックについて前記対応する生データを符号化して、対応する出力トラックを取得するステップとを備える、請求項1から10のいずれか1項に記載のコンピュータによって実行される方法。
  12. コンピューティングデバイスであって、
    プロセッサと、
    前記プロセッサに結合されたメモリとを備え、前記メモリには、前記プロセッサによって実行されると前記プロセッサに動作を実行させる命令が格納されており、前記動作は、
    映像を取得するステップを備え、前記映像は、複数のトラックを含み、前記動作はさらに、
    前記映像についてのトランスコーダの現在の構成設定が、トランスコードされたファイルの一部に関連付けられた構成設定と一致すると判断することに基づいて、前記映像に対応する前記トランスコードされたファイルの一部が入手可能である判断するステップと、
    前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の一部をトランスコードするステップとを備え、前記映像の前記一部は、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプに対して開始し、前記動作はさらに、前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせて、出力映像を生成するステップを備える、コンピューティングデバイス。
  13. 前記メモリには、前記プロセッサにさらなる動作を実行させるさらなる命令が格納されており、前記さらなる動作は、
    前記映像の最初から前記トランスコーダによって前記映像をトランスコードするステップと、
    前記トランスコーダによる前記映像のトランスコード中に第1の中断を受信するステップと、
    前記第1の中断に応答して、前記トランスコーダの出力を前記トランスコードされたファイルの一部として保存して、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプを格納するステップとを備え、前記タイムスタンプは、前記第1の中断の時間に対応し、前記さらなる動作はさらに、
    前記トランスコーダによる前記映像の前記一部の前記トランスコード中に第2の中断を受信するステップと、
    前記第2の中断に応答して、前記トランスコーダの第2の出力を前記トランスコードされたファイルの一部に追加することによって前記トランスコーダの前記第2の出力を保存して、前記第2の中断の時間に対応する第2のタイムスタンプを格納するステップと、
    前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の第2の部分をトランスコードするステップとを備え、前記映像の前記第2の部分は、前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプに対して開始し、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせるステップは、前記トランスコードされたファイルの一部と前記映像の前記第2の部分とを組み合わせるステップを含む、請求項12に記載のコンピューティングデバイス。
  14. 前記トランスコーダの前記出力は、複数の部分出力トラックを含み、各部分出力トラックは、前記映像の前記複数のトラックの特定のトラックに対応し、前記動作はさらに、前記第1の中断に応答して、前記トランスコードされたファイルの一部に関連付けられた構成設定を保存するステップを備え、前記構成設定は、
    前記複数の部分出力トラックの各々のフォーマット、または
    ビットレートパラメータ、幅パラメータまたは高さパラメータのうちの1つまたは複数
    のうちの1つまたは複数を含む、請求項13に記載のコンピューティングデバイス。
  15. 前記複数のトラックは、少なくとも1つの音声トラックと、少なくとも1つの映像トラックとを含み、前記少なくとも1つの映像トラックは、複数のキーフレームと、複数の非キーフレームとを含み、各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられ、前記メモリには、前記プロセッサにさらなる動作を実行させるさらなる命令が格納されており、前記さらなる動作は、
    前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプが前記複数のトラックのうちの1つまたは複数のトラックの前記複数のキーフレームに対応しないと判断するステップを備え、
    前記トランスコーダによってトランスコードされる前記映像の前記一部は、前記複数のキーフレームのうちの、前のキーフレームから開始し、前記前のキーフレームは、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプの直前である、請求項12から14のいずれか1項に記載のコンピューティングデバイス。
  16. 前記メモリには、前記プロセッサにさらなる動作を実行させるさらなる命令が格納されており、前記さらなる動作は、
    前記トランスコーダによる前記映像の前記一部のトランスコード中に中断を受信するステップと、
    前記中断に応答して、前記トランスコーダの部分出力を含むように前記トランスコードされたファイルの一部を更新するステップとを備える、請求項12から15のいずれか1項に記載のコンピューティングデバイス。
  17. 前記複数のトラックは、少なくとも1つの音声トラックと、少なくとも1つの映像トラックとを含み、前記少なくとも1つの映像トラックは、複数のキーフレームと、複数の非キーフレームとを含み、各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられ、前記メモリには、前記プロセッサにさらなる動作を実行させるさらなる命令が格納されており、前記さらなる動作は、
    前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプが前記複数のトラックのうちの1つまたは複数のトラックの前記複数のキーフレームに対応しないと判断するステップを備え、
    前記出力映像を生成するステップは、前記複数のキーフレームの各キーフレームについて、
    前記複数のトラックのうちの1つまたは複数のトラックからのトランスコードされたフレームをバッファリングするステップと、
    前記キーフレームに到達して、前記キーフレームが、前記複数のトラックにわたって同期された同期キーフレームである場合、前記出力映像のチャンクをストレージに書き込むステップとを含み、前記チャンクは、前のキーフレームと前記キーフレームとの間に提供され、前記出力映像を生成するステップはさらに、前記複数のキーフレームの各キーフレームについて、
    前記同期キーフレームの後に前記トランスコードによって生成された1つまたは複数の追加フレームを廃棄するステップを含む、請求項12から16のいずれか1項に記載のコンピューティングデバイス。
  18. ロセッサに動作を実行させるためのプログラムであって、前記動作は、
    映像を取得するステップを備え、前記映像は、複数のトラックを含み、前記動作はさらに、
    トランスコーダの現在の構成設定が、トランスコードされたファイルの一部に関連付けられた構成設定と一致すると判断することに基づいて、前記映像に対応する前記トランスコードされたファイルの一部が入手可能である判断するステップと、
    前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部に関連付けられたタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の一部をトランスコードするステップとを備え、前記映像の前記一部は、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプに対して開始し、前記動作はさらに、前記トランスコードされたファイルの一部が入手可能であると判断したことに応答して、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせて、出力映像を生成するステップを備えるプログラム
  19. 前記プロセッサにさらなる動作を実行させる命をさらに含み、前記さらなる動作は、
    前記映像の最初から前記トランスコーダによって前記映像をトランスコードするステップと、
    前記トランスコーダによる前記映像のトランスコード中に第1の中断を受信するステップと、
    前記第1の中断に応答して、前記トランスコーダの出力を前記トランスコードされたファイルの一部として保存して、前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプを格納するステップとを備え、前記タイムスタンプは、前記第1の中断の時間に対応し、前記さらなる動作はさらに、
    前記トランスコーダによる前記映像の前記一部の前記トランスコード中に第2の中断を受信するステップと、
    前記第2の中断に応答して、前記トランスコーダの第2の出力を前記トランスコードされたファイルの一部に追加することによって前記トランスコーダの前記第2の出力を保存して、前記第2の中断の時間に対応する第2のタイムスタンプを格納するステップと、
    前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプを取得するステップと、
    前記トランスコーダを用いて前記映像の第2の部分をトランスコードするステップとを備え、前記映像の前記第2の部分は、前記トランスコードされたファイルの一部に関連付けられた前記第2のタイムスタンプに対して開始し、
    前記トランスコードされたファイルの一部と前記映像の前記トランスコードされた一部とを組み合わせるステップは、前記トランスコードされたファイルの一部と前記映像の前記第2の部分とを組み合わせるステップを含む、請求項18に記載のプログラム
  20. 前記複数のトラックは、少なくとも1つの音声トラックと、少なくとも1つの映像トラックとを含み、前記少なくとも1つの映像トラックは、複数のキーフレームと、複数の非キーフレームとを含み、各キーフレームおよび各非キーフレームは、対応するタイムスタンプに関連付けられ、前記プログラムには、前記プロセッサにさらなる動作を実行させるさらなる命令が格納されており、前記さらなる動作は、
    前記トランスコードされたファイルの一部に関連付けられた前記タイムスタンプが前記複数のトラックのうちの1つまたは複数のトラックの前記複数のキーフレームに対応しないと判断するステップを備え、
    前記出力映像を生成するステップは、前記複数のキーフレームの各キーフレームについて、
    前記複数のトラックのうちの1つまたは複数のトラックからのトランスコードされたフレームをバッファリングするステップと、
    前記キーフレームに到達して、前記キーフレームが、前記複数のトラックにわたって同期された同期キーフレームである場合、前記出力映像のチャンクをストレージに書き込むステップとを含み、前記チャンクは、前のキーフレームと前記キーフレームとの間に提供され、前記出力映像を生成するステップはさらに、前記複数のキーフレームの各キーフレームについて、
    前記同期キーフレームの後に前記トランスコードによって生成された1つまたは複数の追加フレームを廃棄するステップを含む、請求項18または19に記載のプログラム
JP2021572084A 2019-09-23 2019-09-23 中断可能な映像トランスコーディング Active JP7151004B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2022154760A JP2022188147A (ja) 2019-09-23 2022-09-28 中断可能な映像トランスコーディング

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/US2019/052516 WO2021061098A1 (en) 2019-09-23 2019-09-23 Interruptible video transcoding

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022154760A Division JP2022188147A (ja) 2019-09-23 2022-09-28 中断可能な映像トランスコーディング

Publications (2)

Publication Number Publication Date
JP2022539299A JP2022539299A (ja) 2022-09-08
JP7151004B2 true JP7151004B2 (ja) 2022-10-11

Family

ID=68165734

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2021572084A Active JP7151004B2 (ja) 2019-09-23 2019-09-23 中断可能な映像トランスコーディング
JP2022154760A Pending JP2022188147A (ja) 2019-09-23 2022-09-28 中断可能な映像トランスコーディング

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022154760A Pending JP2022188147A (ja) 2019-09-23 2022-09-28 中断可能な映像トランスコーディング

Country Status (6)

Country Link
US (2) US11290756B2 (ja)
EP (1) EP3818719B1 (ja)
JP (2) JP7151004B2 (ja)
KR (2) KR20230171479A (ja)
CN (2) CN116095336A (ja)
WO (1) WO2021061098A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11743478B2 (en) * 2021-06-15 2023-08-29 International Business Machines Corporation Video stream transcoding with reduced latency and memory transfer
CN113473143B (zh) * 2021-06-30 2022-12-16 中央广播电视总台 一种第三代音视频标准(avs3)转码支持断点续转的方法
CN113873176B (zh) * 2021-10-27 2024-03-08 北京奇艺世纪科技有限公司 一种媒体文件合并方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006135705A (ja) 2004-11-08 2006-05-25 Hitachi Ltd 記録再生方法及び記録再生装置
JP2008507160A (ja) 2004-05-03 2008-03-06 マイクロソフト コーポレーション バックグラウンド・トランスコード
JP2012209702A (ja) 2011-03-29 2012-10-25 Onkyo Corp トランスコード装置
US8855189B1 (en) 2010-04-12 2014-10-07 UV Networks, Inc. Multi-stream transcoding system with cache memory management

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001094935A (ja) * 1999-09-22 2001-04-06 Nec Corp トランスコーダ及び録画再生システム並びにそれに用いる録画再生方法
US7409094B2 (en) * 2001-05-04 2008-08-05 Hewlett-Packard Development Company, L.P. Methods and systems for packetizing encoded data
US7595743B1 (en) * 2005-10-26 2009-09-29 Lsi Corporation System and method for reducing storage requirements for content adaptive binary arithmetic coding
JP4551370B2 (ja) * 2006-07-18 2010-09-29 株式会社日立製作所 記録再生装置及び記録再生方法
US8693553B2 (en) * 2007-12-28 2014-04-08 Nokia Corporation Methods, apparatuses, and computer program products for adaptive synchronized decoding of digital video
CN101459848B (zh) * 2008-12-26 2010-11-10 西安交通大学 一种分布式多格式数字视频转码结构设计方法
KR101272876B1 (ko) * 2009-11-24 2013-06-14 한국전자통신연구원 미디어 스트리밍 서버와 이 서버의 미디어 데이터 관리 방법
US9691430B2 (en) * 2010-04-01 2017-06-27 Microsoft Technology Licensing, Llc Opportunistic frame caching
CN103583040B (zh) 2011-04-15 2017-03-15 欧朋软件爱尔兰有限责任公司 实时视频检测器
US9271003B2 (en) * 2011-04-15 2016-02-23 Opera Software Ireland Limited Real-time audio or video transcoding
US9137551B2 (en) * 2011-08-16 2015-09-15 Vantrix Corporation Dynamic bit rate adaptation over bandwidth varying connection
US10182219B2 (en) * 2013-04-25 2019-01-15 Time Warner Cable Enterprises Llc Space efficiency and management of content
US9319753B2 (en) 2013-05-09 2016-04-19 Broadcom Corporation Seamless trick-mode with decreased latency for live transcode streaming
US8955027B1 (en) 2013-11-21 2015-02-10 Google Inc. Transcoding media streams using subchunking
FI20165114A (fi) * 2016-02-17 2017-08-18 Nokia Technologies Oy Laitteisto, menetelmä ja tietokoneohjelma videokoodausta ja videokoodauksen purkua varten
CN108632643A (zh) * 2017-03-20 2018-10-09 天脉聚源(北京)科技有限公司 一种视频文件转码的方法和系统
CN108174226B (zh) * 2017-12-19 2020-11-10 平安科技(深圳)有限公司 直播视频的转码装置、方法及计算机可读存储介质
CN110213598B (zh) * 2018-05-31 2021-10-15 腾讯科技(深圳)有限公司 一种视频转码系统、方法及相关产品

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008507160A (ja) 2004-05-03 2008-03-06 マイクロソフト コーポレーション バックグラウンド・トランスコード
JP2006135705A (ja) 2004-11-08 2006-05-25 Hitachi Ltd 記録再生方法及び記録再生装置
US8855189B1 (en) 2010-04-12 2014-10-07 UV Networks, Inc. Multi-stream transcoding system with cache memory management
JP2012209702A (ja) 2011-03-29 2012-10-25 Onkyo Corp トランスコード装置

Also Published As

Publication number Publication date
CN116095336A (zh) 2023-05-09
EP3818719B1 (en) 2024-05-01
KR20220006546A (ko) 2022-01-17
WO2021061098A1 (en) 2021-04-01
US11290756B2 (en) 2022-03-29
US11800160B2 (en) 2023-10-24
CN113906764A (zh) 2022-01-07
KR20230171479A (ko) 2023-12-20
EP3818719A1 (en) 2021-05-12
KR102612528B1 (ko) 2023-12-12
JP2022539299A (ja) 2022-09-08
US20220191564A1 (en) 2022-06-16
US20210250626A1 (en) 2021-08-12
CN113906764B (zh) 2023-01-31
JP2022188147A (ja) 2022-12-20

Similar Documents

Publication Publication Date Title
US11622134B2 (en) System and method for low-latency content streaming
US11800160B2 (en) Interruptible video transcoding
US11700419B2 (en) Re-encoding predicted picture frames in live video stream applications
JP2024073439A (ja) 選択的な動きの描画を伴う画像表示
US10674159B2 (en) Effective intra encoding for screen data
CN113473126B (zh) 视频流的处理方法、装置、电子设备及计算机可读介质
US9877056B1 (en) Compressed media with still images selected from a video stream
US10819951B2 (en) Recording video from a bitstream
JP2017503399A (ja) カメラの動きにより損なわれたビデオフレームの扱い
US20190364087A1 (en) Protocol conversion of a video stream
CN111343503B (zh) 视频的转码方法、装置、电子设备及存储介质
CN114222156A (zh) 视频剪辑方法、装置、计算机设备和存储介质
US11086843B2 (en) Embedding codebooks for resource optimization
CN113973224A (zh) 媒体信息的传输方法、计算设备及存储介质
JP6483850B2 (ja) データ処理方法および装置
US20160117796A1 (en) Content Adaptive Decoder Quality Management
US10893331B1 (en) Subtitle processing for devices with limited memory
WO2023121732A1 (en) Cloud application data streaming using drawing data
JP2024515488A (ja) スタッキング特性を有するプレロール、ミッドロールおよびエンドロールをサポートするためのmpeg dash用の補助mpdに関する方法、装置、媒体
CN113676777A (zh) 数据处理方法及装置
CN115811621A (zh) 一种直播流播放方法、装置、计算机设备及存储介质
Ranjan et al. Onlive cloud gaming service
KR20160087256A (ko) 클라우드 스트리밍 서비스 시스템, 메시지 기반 이미지 클라우드 스트리밍 서비스 방법 및 이를 위한 장치

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220428

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220428

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20220428

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220928

R150 Certificate of patent or registration of utility model

Ref document number: 7151004

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150