JP7068489B2 - メディアファイル変換方法、装置及び記憶媒体 - Google Patents

メディアファイル変換方法、装置及び記憶媒体 Download PDF

Info

Publication number
JP7068489B2
JP7068489B2 JP2020552076A JP2020552076A JP7068489B2 JP 7068489 B2 JP7068489 B2 JP 7068489B2 JP 2020552076 A JP2020552076 A JP 2020552076A JP 2020552076 A JP2020552076 A JP 2020552076A JP 7068489 B2 JP7068489 B2 JP 7068489B2
Authority
JP
Japan
Prior art keywords
media
media data
box
time
media file
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020552076A
Other languages
English (en)
Other versions
JP2021508429A (ja
Inventor
国徽 ▲銀▼
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Publication of JP2021508429A publication Critical patent/JP2021508429A/ja
Application granted granted Critical
Publication of JP7068489B2 publication Critical patent/JP7068489B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs
    • H04N21/2343Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements
    • H04N21/234336Processing of video elementary streams, e.g. splicing of video streams or manipulating encoded video stream scene graphs involving reformatting operations of video signals for distribution or compliance with end-user requests or end-user device requirements by media transcoding, e.g. video is transformed into a slideshow of still pictures or audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/233Processing of audio elementary streams
    • H04N21/2335Processing of audio elementary streams involving reformatting operations of audio signals, e.g. by converting from one coding standard to another
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4341Demultiplexing of audio and video streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/4402Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display
    • H04N21/440236Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving reformatting operations of video signals for household redistribution, storage or real-time display by media transcoding, e.g. video is transformed into a slideshow of still pictures, audio is converted into text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/845Structuring of content, e.g. decomposing content into time segments
    • H04N21/8456Structuring of content, e.g. decomposing content into time segments by decomposing the content in the time domain, e.g. in time segments

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

関連出願の取り込み
本出願は、申請番号201810530467.5、申請日2018年05月29日である中国特許出願に基づいて提出し、該中国特許出願の優先権を要求し、該中国特許出願の全ての内容をここで本出願に参照として取り込んでいる。
本開示はマルチメディア技術に関し、特にメディアファイル変換方法、装置及び記憶媒体に関する。
動画専門家集団(MPEG、Moving Picture Experts Group)-4カプセル化フォーマット(本明細書では、MP4フォーマットと略称する)は、現在広く使用されているボックスフォーマットであり、多種の符号化方式のビデオデータ及びオーディオデータを記憶することができる。
しかしながら、MP4カプセル化フォーマットは、非ストリーミングメディアフォーマットであり、MP4カプセル化フォーマットを用いたファイル(本明細書では、MP4ファイルと略称する)がストリーミングメディア(即ちダウンロードしながら再生する)形式による再生をサポートしない。そのため、関連技術は、ストリーミングメディア形式の再生を実現するために、MP4ファイルを、例えばFLV(Flash Video)、HTTPライブストリーミング(HLS、HTTP Live Streaming)等のストリーミングメディアフォーマットに変換しなければならない。
しかしながら、関連技術は、MP4ファイルをストリーミングメディアフォーマットのフラグメントメディアファイルに変換してネットワーク伝送に適応する効果的な方式を欠いている。
これに鑑みて、本開示の実施例は、メディアファイル変換方法、装置及び記憶媒体を提供し、非ストリーミングメディアフォーマットのメディアファイルを、ネットワーク伝送に適応し、独立して復号でき、体積がより小さいフラグメントメディアファイルに変換することができる。
本開示の実施例の技術的解決手段は以下のように実現される。
本開示の実施例は、
非ストリーミングメディアフォーマットを用いるメディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るステップと、
前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索するステップと、
前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索するステップと、
前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出するステップと、
抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得るステップと、を含むメディアファイル変換方法を提供する。
本開示の実施例は、さらに、
非ストリーミングメディアフォーマットを用いるメディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るように構成される解析モジュールと、
前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索し、そして、前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索するように構成される検索モジュールと、
前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出するように構成される抽出モジュールと、
抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得るように構成される合成モジュールと、を含むメディアファイル変換装置を提供する。
他の態様では、本開示の実施例は、さらに、
実行可能な命令を記憶するためのメモリと、
前記メモリに記憶された実行可能な命令を実行して本開示の実施例に係るメディアファイル変換方法を実現するためのプロセッサと、を含むメディアファイル変換装置を提供する。
他の態様では、本開示の実施例は、さらに、実行可能な命令が記憶される、前記実行可能な命令が実行される時、本開示の実施例に係るメディアファイル変換方法を実現するための記憶媒体を提供する。
他の態様では、本開示の実施例は、さらに、実行可能な命令が記憶される、前記実行可能な命令が実行される時、本開示の実施例に係るメディアファイル変換方法を実現するための記憶媒体を提供する。
本開示の実施例は、以下の技術的効果を有する。
メディアファイルから任意の所定期間のメディアデータを抽出してフラグメントメディアファイルを構成することができ、それにより、所定期間のメディアファイルを再生する必要がある場合、非ストリーミングメディアフォーマットのメディアファイルから所定期間のメディアデータを抽出し、独立して復号可能なフラグメントメディアファイルにカプセル化すればよい。このような方法で、非ストリーミングメディアフォーマットのファイルが完全にダウンロードされなければ独立して再生できないという制限を解除し、再生のリアルタイム性が高く、一方、完全なメディアファイルをストリーミングメディアフォーマットに予め変換する必要がなく、所定期間だけにフラグメントメディアファイルを構成すればよく、変換遅延が小さいため、予め記憶しておく必要がなく、本来のメディアファイルを除き、余分な記憶スペースを占有することがなく、記憶スペースへの占有を著しく低減する。
本開示の実施例に係るマルチメディアファイルカプセル化用のボックスの選択可能な構造概略図である。 本開示の実施例におけるMP4ファイルの選択可能なカプセル化構造概略図である。 本開示の実施例におけるメディアファイルにおけるメディアデータボックスのメディアデータを記憶する選択可能な構造概略図である。 本開示の実施例におけるFMP4ファイルの選択可能なカプセル化構造概略図である。 本開示の実施例に係るメディアファイル変換装置の選択可能な構造概略図である。 本開示の実施例に係るメディアファイル変換装置の選択可能な構造概略図である。 本開示の実施例に係るメディアファイル変換方法の選択可能なフローチャートである。 本開示の実施例に係るメタデータボックスから解析してメディア情報を得る選択可能なフローチャートである。 本開示の実施例に係るメディアファイルから所定期間のメディアデータを検索する選択可能なフローチャートである。 本開示の実施例に係るメディアファイルから所定期間のメディアデータの位置を検索する選択可能なフローチャートである。 本開示の実施例に係るフラグメントメディアファイルをカプセル化する選択可能なフローチャートである。 本開示の実施例に係るメディアファイル変換方法の選択可能な使用シーンの概略図である。 本開示の実施例に係るMP4ファイルをFMP4ファイルに変換してメディアソース拡張インタフェースにより再生する概略図である。
本開示の目的、技術的解決手段及び利点をより明確にするため、以下、図面を参照しながら本開示をさらに詳細に説明し、説明される実施例が本開示を制限するものであると見なすべきではなく、当業者であれば創造的な労力を要さずに想到し得る他の実施例は、いずれも本開示の保護範囲に属する。
本明細書で使用される全ての技術及び科学用語は、特に断りがない限り、本開示の技術分野に属する当業者に通常理解されるものと同義である。本明細書で使用される用語は、具体的な実施例を説明するためのものであり、本開示を限定するものではない。
本開示をさらに詳しく説明する前に、本開示の実施例に係る名詞及び技術用語を説明する。本開示の実施例に係る名詞及び技術用語は、以下の解釈を適用する。
1)メディアファイルは、容器(Box、ボックスとも呼ぶ)という形式で符号化されたメディアデータ(例えば、オーディオデータ及びビデオデータの少なくとも一種)を記憶するファイルである。メディアファイルには、メディアデータを正確的に復号されることを確保するために、メディアデータを記述するメタデータをさらに含む。
例えば、MPEG(Moving Picture Experts Group)-4というパッケージMP4容器という方式でマルチメディアデータをパッケージすることで形成されるメディアファイルは、MP4ファイルという。典型的には、MP4ファイルには、AVC(Advanced Video Coding、即ちH.264)又はMPEG-4(Part2)標準に符合化された映像データ及びAAC(Advanced Audio Coding)標準に符合化された音声データが格納されており、もちろん映像と音声の他の符号化方式を除外しない。
2)容器(Box)は、ボックスとも呼ばれ、唯一の類別識別子と長さで定義される、オブジェクト向けの部材である。図1は、本開示の実施例に係る容器の選択可能な構造の一つを模式的に示す図である。図1を参照して、容器には、容器ヘッダ(容器ヘッダ)及び容器データ(Box Data)が含まれ、各種情報を表現するための2値データが充填されている。ここで、容器が相互にネストされるとこができ、容器のデータは一連のサブ容器である場合、この容器がコンテナ容器(Container Box)となる。
容器ヘッダは、容器がメディアファイルに占用する長さ記憶空間の大きさを示す容量(size)、及び容器の種類を示すタイプ(type)を含む。図2は、本開示の実施例に係るMP4ファイルの選択可能なカプセル化構造の一つを模式的に示す図である。図2を参照して、MP4ファイルには、ファイルタイプ容器(ftyp box)、メタデータ容器(moov box)及びメディアデータ容器(mdat box)という三つの基本的な容器タイプを含む。
容器データ部は、具体的なデータを記憶することができ、このときの容器が「データ容器」と呼ばれる。容器データ部は別の種類の容器をさらにカプセル化することができ、このときの容器が「容器の容器」と呼んでもよい。
3)トラック(Track)は、ストリーム(Stream)とも呼ばれ、メディアデータ容器において時間順にソートする相関のサンプル(Sample)である。メディアデータにおいては、トラックが一つの映像フレーム系列又は一つの音声フレーム系列を表し、映像フレーム系列に同期した字幕トラックを含んでもよい。同一のトラックにおける一組の連続するサンプルはチャンク(Chunk)と呼ばれる。
4)ファイルタイプの容器は、メディアファイルにおいてファイルの容量(即ち、占用するバイトの長さ)やタイプを格納するための容器である。図2に示すように、ファイルタイプの容器は、ftyp 容器と付けられ、格納される2値データが、ファイル容器の種類及び互換性を標準バイト長さに従って記述する。
5)メタデータ容器は、メディアファイルにおいてメタデータ(即ち、メディアデータ容器に格納されるマルチメディアデータを記述するデータ)を記憶するための容器である。MP4ファイルのメタデータ容器に格納される2値データが表現する情報をメディア情報と呼ぶ。
図2に示すように、メタデータ容器のヘッダは、容器タイプが「moov box」であることを2値データで表す。容器データ部は、MP4ファイルの全体情報を記憶するためのmvhd容器をカプセル化しており、時間長、作成時刻、修正時間などを含み、MP4ファイルから独立して、MP4ファイルの再生に関するものである。
メディアファイルのメディアデータ容器に、複数のトラック、例えば音声トラック容器(オーディオトラック容器)及び映像トラック容器(ビデオトラック容器)、に対応するサブ容器を含んでもよい。音声トラック容器及び映像トラック容器のサブ容器のそれぞれには、対応するトラックのメディアデータの参照及び記述を含んでいる。必要なサブ容器には、トラックの特性及び全体情報(例えば時間、高さ、幅)を記述するための容器(tkhd boxと記す)と、トラックのメディア情報(例えばメディアタイプ及びサンプルに関する情報)を記録する容器(mdia boxと記す)と、を含む。
メディア容器にカプセル化されるサブ容器については、トラックの関連属性及び内容を記録する容器(mdhd boxと記す)と、メディアを再生する過程情報を記録する容器(hdlr boxと記す)と、トラックにおけるメディアデータのメディア情報を記述する容器(minf boxと記す)と、を含むことができる。minf 容器には、どのようにメディア情報を位置決めるかを解釈するためのサブ容器(dinf boxと記す)、及びトラックでサンプリングした全ての時間情報(復号時間/表示時間)、位置情報及び復号/符号などの情報を記録するためのサブ容器(stbl boxと記す)がさらにカプセル化される。
図3は、本開示の実施例に係るメディアファイルにおけるメディアデータ容器がメディアデータを記憶する構造模式図である。図3に示すように、stbl容器の2値データから識別されるメディア情報を用いて、サンプルの時間、タイプ、容量及びメディアデータ容器における位置を解釈可能である。次に、stbl 容器における各サブ容器について説明する。
stsd容器は、1つのサンプルディスクリプション(sample description)テーブルを含む。各メディアファイルには、異なる符号化方式及び記憶データのファイル数に応じて、一つ又は複数のディスクリプションテーブルが含まれることができる。ディスクリプションテーブルを通じて、サンプル毎のディスクリプション情報を見当たることができる。ディスクリプション情報は、サンプルを正しく復号されることを保証できる。異なるメディアタイプに対して相違するディスクリプション情報、例えば映像メディアについてのディスクリプション情報が画像の構造、を格納する。
stts容器は、サンプルの時間長に関する情報を格納するものであり、時間(復号時間)とサンプルの番号とをマッピングするためのテーブルを提供する。sttx boxにより、メディアファイルおける任意の時間のサンプルを位置決めすることができる。stts 容器はさらに他のテーブルを用いてサンプルの容量とポインタとをマッピングし、テーブルにおけるエントリごとに同じ時間オフセット内で連続するサンプルの番号、およびサンプリングのオフセットを与え、これらのオフセットを増加させて、完全な時間-サンプルのマッピングテーブルを作成し、数式は次のようになる。
DT(n+1)=DT(n)+STTS(n) (1)
ここで、STTS(n)は、第nのサンプルの時間長であり、DT(n)は第nのサンプルの表示時間である。サンプルの配列が時間順にソートされているので、オフセット量は常に非負である。DTは、一般的に0から開始する。第iのサンプルの表示時間DT(i)を例として、計算式は次の通りである。
DT(i)=SUM(for j=0 to i-1 of delta(j)) (2)
全てのオフセットの和はトラックにおけるメディアデータの時間長である。
sStss(Time-To-Sample Atoms)容器は、メディアファイルにおけるキーフレームの番号を記録するものである。
stsc(Sample-To-Chunk Atom)容器は、サンプルとサンプルを格納するチャンクとのマッピング関係を記録するものであり、テーブルによりサンプルの番号とチャンクの番号との関係をマッピングし、テーブルを調べることで特定のサンプルを含むチャンクを見つけることができる。
stco容器は、トラック内における各チャンクの位置を定義するものであり、位置が、メディアデータ容器の先頭バイトのオフセットと、先頭バイトに対する長さ(容量)で表される。
stsz(Sample Size Atom)容器は、メディアファイルの各サンプルの容量(即ちサイズ)を記録する。
6)メディアデータ容器は、メディアファイルにおいてマルチメディアデータを記憶するための容器である。例えば、MP4ファイルにおけるメディアデータ容器は、図3に示すように、サンプルがメディアデータ容器において記憶する単位であって、メディアファイルのチャンクに記憶され、チャンクとサンプルの長さは互いに異なってもよい。
7)セグメントメディアファイルは、メディアファイルを分割して形成され、それぞれ独立して復号できるサブファイルである。
MP4ファイルを例とすれば、MP4ファイルのメディアデータがキーフレームによって分割され、分割されたメディアデータと対応するメタデータとをセグメントメ化FMP4ファイルにカプセル化し、各FMP4ファイルにおけるメタデータがメディアデータが正確的に復号されることを保証できる。
図4は、本開示の実施例に係るセグメント化MP4(FMP4)ファイルの選択可能なカプセル化構造の一つを模式的に示す図である。例えば、図2に示すMP4ファイルを複数のFMP4ファイルに変換するとき、図4に示すように、一つのMP4ファイルは、複数のFMP4ファイルに変換でき、各FMP4ファイルには、moov容器、moof容器及びmdat容器という三つの基本的な容器が含まれる。
moov容器は、MP4ファイルレベルのメタデータを含み、FMP4ファイルの由来となるMP4ファイルにおける全てのメディアデータ、例えばMP4ファイルの時間長、作成時刻、修正時間などを記述するためのものである。
moof容器は、セグメントレベルのメタデータを記憶し、FMP4ファイルにカプセル化されたメディアデータを記述し、FMP4におけるメディアデータの復号が可能であることを保証するためのものである。
1つのmoof容器と1つのmdat容器は、セグメント化MP4ファイルの1つのセグメントを構成し、1つのセグメント化MP4ファイルに一つ又は複数のこのようなセグメントが含まれてもよい。各セグメントにカプセル化されたメタデータは、当該セグメント内にカプセル化されたメディアデータが独立して復号することができることを保証する。
8)メディアソース拡張(MSE、Media Source Extensions)インタフェースは、ウェブページで実現されプレーヤ向けのインタフェースであって、ウェブページにおけるローディング期間にウェブブラウザのインタープリタによって解析されて、フロントエンドのプログラミング言語(例えばJavaScript)を実行することで実現され、プレーヤにハイパーテキストマークアップ言語(HTML)メディア要素(Media Element)を呼び出すというメディアストリーミングを再生する機能を提供する。例としては、映像要素<video>、及び音声要素<audio>でビデオ/オーディオを再生する機能を実現する。
9)ストリームメディアカプセル化フォーマットフォーマットメディアは、メディアデータをストリームのメディアファイルにカプセル化する。メディアファイルを完全にダウンロードする必要がなく、別途トランスコードする必要がなく、復号されて再生されることができる、すなわち、本来にダウンロードしながら再生することをサポートする技術である。典型的なストリームメディアカプセル化フォーマットストリームメディアフォーマットのファイルは、HTTPライブストリーム(HLS、HTTP Live Streaming)技術に基づくTSメディアファイルセグメント、FLV(Flash Video)ファイルなどが挙げられる。
10)非ストリームメディアカプセル化フォーマットストリームメディアフォーマットは、メディアデータをメディアファイルにカプセル化し、且つメディアファイルを完全にダウンロードしてから復号されて再生されるカプセル化技術である。典型的には、非ストリームメディアカプセル化フォーマットストリームメディアフォーマットのファイルは、MP4ファイル、WMV(Windows Media Video)ファイル、ASF(Advanced Streaming Format)ファイルなどが挙げられる。
なお、MP4ファイルは本来にストリームメディアの形式の再生をサポートしないが、オンライントランスコードした後に、プレーヤによりトランスコードされたメディアストリームに、又は部分的にダウンロードしたMP4ファイルの欠落部分に無効な2値データを充填(例えば、ftyp容器及びmoov容器が完全にダウンロードされた場合、mdat容器の欠落部分に無効な2値データを代わりに充填)することで、ダウンロードしながら再生する技術効果を実現できる。本明細書には、このような本来にストリームメディアの形式の再生をサポートしないカプセル化フォーマットを、非ストリームメディアフォーマットという。
まず本開示の実施例を実現するメディアファイル変換装置について説明し、メディアファイル変換装置はハードウェア、ソフトウェア又はソフトウェアとハードウェアの組み合わせにより提供される。
以下、メディアファイル変換装置のソフトウェアとハードウェアを組み合わせる実施を説明し、図5に示すように、図5は本開示の実施例に係るメディアファイル変換装置の選択可能な構造概略図であり、メディアファイル変換装置500は、ビデオ再生機能付きの携帯電話、コンピュータ、デジタル放送端末、情報送受信装置、ゲームコンソール、タブレットデバイス、医療装置、フィットネス機器、パーソナルデジタルアシスタント等を含んでもよい。図5に示すメディアファイル変換装置500は、少なくとも1つのプロセッサ501、メモリ502、少なくとも1つのネットワークインタフェース504及びユーザインタフェース503を含む。メディアファイル変換装置500内の各コンポーネントはバスシステム505によって結合される。バスシステム505は、これらのコンポーネント間の接続通信を実現するために用いられると理解できる。バスシステム505は、データバスの他に、電源バス、制御バス及び状態信号バスをさらに含む。ただし、説明を明確にするために、図6では、各バスをバスシステム505とマーキングする。
ここで、ユーザインタフェース503は、ディスプレイ、キーボード、マウス、トラックボール、クリックホイール、キー、ボタン、タッチパネル、又はタッチスクリーン等を含むことができる。
メモリ502は、揮発性メモリ又は不揮発性メモリであってもよく、揮発性メモリと不揮発性メモリの両方を含んでもよいと理解できる。そのうち、不揮発性メモリは、リードオンリーメモリ(ROM、Read Only Memory)、プログラマブルリードオンリーメモリ(PROM、Programmable Read-Only Memory)、消去可能プログラマブルROM(EPROM、Erasable Programmable Read-Only Memory)、電気的消去可能プログラマブルROM(EEPROM、Electrically Erasable Programmable Read-Only Memory)であってもよい。磁気表面メモリは、磁気ディスクメモリ又は磁気テープメモリであってもよい。揮発性メモリは、ランダムアクセスメモリ(RAM、Random Access Memory)であってもよく、それは外部のキャッシュメモリとして使用される。例示的に、多くのタイプのRAM、例えば、スタティックランダムアクセスメモリ(SRAM、Static Random Access Memory)、同期型スタティックランダムアクセスメモリ(SSRAM、Synchronous Static Random Access Memory)、ダイナミックランダムアクセスメモリ(DRAM、Dynamic Random Access Memory)、同期型ダイナミックランダムアクセスメモリ(SDRAM、Synchronous Dynamic Random Access Memory)が使用できるが、それらに限定しない。本開示の実施例に記載のメモリ502はこれら及び任意の他の適切なタイプのメモリを含むことを目的とする。
本開示の実施例におけるメモリ502は、サーバから取得されたメディアファイルデータを記憶してメディアファイル変換装置500の動作をサポートできる三値連想メモリ、スタティックランダムメモリを含むが、これらに限定されない。これらのデータは、例示的にオペレーティングシステム5021及びアプリケーション5022のようなメディアファイル変換装置500上で動作するための任意のコンピュータプログラム、及び各種のメディアファイルデータ情報等を含む。そのうち、オペレーティングシステム5021は、例えば、様々な基本サービスを実現し、及びハードウェアに基づくタスクを処理するためのフレームワーク層、コアライブラリ層、ドライバー層等の様々なシステムプログラムを含む。アプリケーション5022は、例えば、メディアファイル変換機能付きのクライアント、又はアプリケーション等の様々なアプリケーションを含んでもよい。本開示の実施例のメディアファイル変換方法を実現するプログラムはアプリケーション5022に含まれてもよい。
上記本開示の実施例に開示された方法は、プロセッサ501により実現される。プロセッサ501は、信号処理機能を有する集積回路チップである可能性がある。実施過程において、本開示の実施例に係るメディアファイル変換方法は、プロセッサ501内のハードウェアの集積論理回路又はソフトウェア形式の動作により完了することができる。上記プロセッサ501は、汎用プロセッサ、デジタル信号プロセッサ(DSP、Digital Signal Processor)、又は他のプログラマブル論理デバイス、ディスクリートゲートもしくはトランジスタ論理デバイス、ディスクリートハードウェアコンポーネント等であってもよい。プロセッサ501は、本開示の実施例に係る各方法、ステップ及び論理ブロック図を実現するか又は実行することができる。汎用プロセッサは、マイクロプロセッサ又は任意の一般的なプロセッサ等であってもよい。本開示の実施例に係る方法を組み合わせるステップは、ハードウェアコーディングプロセッサの実行、又はコーディングプロセッサにおけるハードウェア及びソフトウェアモジュールの組み合わせにより直接完了する。ソフトウェアモジュールが記憶媒体に位置し、該記憶媒体がメモリ502に位置し、プロセッサ501がメモリ502内の情報を読み取り、そのハードウェアと組み合わせてメディアファイル変換方法を完了する。
例示的な実施例で、本開示の実施例は、例えば、コンピュータプログラムを含むメモリ502等のコンピュータ読取可能な記憶媒体をさらに提供し、上記コンピュータプログラムは、メディアファイル変換装置500のプロセッサ501によって実行されることにより、メディアファイル変換方法を完了する。コンピュータ読取可能な記憶媒体は、FRAM(登録商標)、ROM、PROM、EPROM、EEPROM、Flash Memory、磁気表面メモリ、光ディスク、又はCD-ROM等のメモリであってもよく、上記メモリのうちの1つ又は任意の組み合わせを含む様々なデバイス、例えば、携帯電話、コンピュータ、タブレットデバイス、パーソナルデジタルアシスタント等であってもよい。
以下、メディアファイル変換装置のハードウェアだけによる実施を説明し、本開示の実施例のメディアファイル変換装置の実現について、1つ又は複数の特定用途向け集積回路(ASIC、Application Specific Integrated Circuit)、DSP、プログラマブル論理デバイス(PLD、Programmable Logic Device)、複合プログラマブル論理デバイス(CPLD、Complex Programmable Logic Device)、フィールドプログラマブルゲートアレイ(FPGA、Field-Programmable Gate Array)又は他の電子素子により実現されてもよく、本開示の実施例に係るメディアファイル変換方法を実行し実現するために用いられる。
以下、メディアファイル変換装置のソフトウェアだけによる実施を説明し、本開示の実施例に係るメディアファイル変換装置の実現について、アプリケーション又はプラグイン、又は両者の組み合わせにより実現することができる。
一例として、アプリケーションは、メディアファイル変換専用のクライアントであってもよいし、メディアファイル変換機能をオプション機能とするクライアントであってもよく、対応するプラグインをインストールすることで実現される。
一例として、プラグインは、メディア再生用のアプリケーションにメディアファイル変換の機能を追加するアプリケーションの機能アップグレードインストールパッケージとして実装されてもよく、またメディア再生のウェブページ内の要素であってもよく、フロントエンド言語で実現され、ブラウザで直接解釈実行されることで、ウェブページでメディアファイル変換及びメディア再生の機能を実現する。
メディアファイル変換装置のハードウェア実施又はソフトウェア実施の例として、メディアファイル変換装置は、信号/情報/データ層で結合関係が存在する一連のモジュールとして提供することができる。以下、図6を参照しながら説明し、図6に示すように、図6は本開示の実施例に係るメディアファイル変換装置の選択可能な構造概略図であり、メディアファイル変換装置を実現する一連のモジュールを示すが、メディアファイル変換装置のモジュール構造は図6に示すものだけに限定されず、例えば、そのうちのモジュールに対して実現される異なる機能に応じてさらに分割したり組み合わせたりすることができる。以下、図6に示すモジュールが実現する機能について説明する。
以下、図5に基づいて、図6に示した各モジュールの機能について説明を続ける。
解析モジュール601は、非ストリーミングメディアフォーマットを用いるメディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るように構成される。
本開示の一実施例では、解析モジュール601は、メタデータボックスにおけるサブボックスのネスト構造を解析し、ネスト構造に基づいて各サブボックスにおける2値データを読み出すように構成される。解析モジュール601は、読み出された2値データから各サブボックスが特徴付けるメディアデータのメディア情報を解析するように構成される。図2に示す構造を参照し、ボックスがネスト構造であってもよいため、まず、メタデータボックスにおけるサブボックスのネスト構造を解析し、対応する2値データをmdatボックスから解析する。本実施例に示した技術的解決手段により、ネスト構造のメタデータボックスの解析及び関連データの取得を実現することができる。
検索モジュール602は、メディア情報が示すメディアデータの時間に基づいて、所定期間のメディアデータを検索する。
本開示の一実施例では、検索モジュール602は、メディアデータの時間に基づいて、メディアファイル内の2つのキーフレームを検索し、2つのキーフレームが所定期間の開始時間及び終了時間に対応するように構成される。検索モジュール602は、メディアデータの時間に基づいて、2つのキーフレーム間のビデオフレームと整列するオーディオフレームを検索するように構成される。検索モジュール602は、メディアデータの位置に基づいて、2つのキーフレーム間のビデオフレームのメディアファイルにおける位置を検索し、かつオーディオフレームのメディアファイルにおける位置を検索するように構成される。図2に示す構造を参照し、本実施例に示した技術的解決手段により、ネスト構造におけるビデオフレームの決定を実現し、かつ、audio trackボックスにおける対応するオーディオフレームの位置の決めを実現することができる。
検索モジュール602は、メディア情報が示すメディアデータのメディアファイルにおける位置に基づいて、所定期間のメディアデータのメディアファイルにおける位置を検索するように構成される。
本開示の一実施例では、検索モジュール602は、さらに、メディアデータの時間に基づいて、復号時間が所定期間の開始時間に一致する第1のキーフレームを検索するように構成される。検索モジュール602は、さらに、復号時間が所定期間の開始時間よりも早いキーフレームのうち、開始時間に最も近い第1のキーフレームを検索するように構成される。検索モジュール602は、さらに、メディアデータの時間に基づいて、復号時間が所定期間の終了時間に一致する第2のキーフレームを検索するように構成される。検索モジュール602は、さらに、復号時間が所定期間の終了時間よりも遅いキーフレームのうち、終了時間に最も近い第2のキーフレームを検索するように構成される。
本開示の一実施例では、検索モジュール602は、さらに、メディアデータの時間に基づいて、復号時間が所定期間にあるオーディオフレームを検索するように構成される。
最後のオーディオフレームの復号時間が所定期間の終了時間に一致し、又は所定期間の終了時間よりも遅く、かつ、終了時間に最も近い。本実施例に示した技術的解決手段により、メディアデータの時間に基づいて、復号時間が所定期間にあるオーディオフレームを検索することを実現でき、最初のオーディオフレームの復号時間が所定期間の開始時間に一致し、又は最初のオーディオフレームの復号時間が所定期間の開始時間よりも早く、かつ、開始時間に最も近く、そのため形成されたフラグメントメディアファイルがMP4ファイルに出現する可能性のあるビデオ、オーディオ時間が一致しないという問題を解消し、各フレームのビデオ再生時に同期したオーディオが再生されることを保証し、オーディオがない現象が発生せず、ユーザの使用体験を向上させる。
抽出モジュール603は、メディアファイルのメディアデータボックスから対応する位置のメディアデータを抽出するように構成される。
本開示の一実施例では、抽出モジュール603は、2つのキーフレーム間のビデオフレームの位置に対応するオフセット量及び容量、並びにビデオフレームと整列するオーディオフレームの位置に対応するオフセット量及び容量に基づいて、最小オフセット量と最大容量で構成される区間を決定する。抽出モジュール603は、メディアファイルのメディアデータボックスの対応する区間からメディアデータを抽出するように構成される。本実施例に示した技術的解決手段により、最小オフセット量と最大容量で構成される区間を決定し、メディアファイルのメディアデータボックスの対応する区間からメディアデータを抽出することにより、メディアデータに対する再度抽出を回避し、メディアデータに対する処理効率を効果的に向上させる。
本開示の一実施例では、オフセット量はメディアファイルのメディアデータボックスにおけるメディアデータの記憶開始位置を特徴付け、容量は記憶開始位置からメディアデータが占有する長さを特徴付ける。
本開示の一実施例では、抽出モジュール603は、ビデオフレームの記憶位置に基づいて、ビデオフレームを抽出し、ビデオフレームの抽出が完了した後、オーディオフレームの記憶位置に基づいてオーディオフレームを抽出するように構成される。
本開示の一実施例では、抽出モジュール603は、所定のカットオフ値に基づいて、メディアデータにおいて、ビデオフレーム及びオーディオフレームを抽出するように構成される。本実施例に示した技術的解決手段により、1回だけの抽出により対応するオーディオフレーム及びビデオフレームを取得することにより、メディアファイルの処理速度を向上させることができる。
合成モジュール604は、抽出されたメディアデータ、及びメディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを取得するように構成される。
本開示の一実施例では、合成モジュール604は、メディアファイルのタイプ及び互換性を示すデータに対して、フラグメントメディアファイルのファイルタイプボックスに充填するために充填動作を実行するように構成される。合成モジュール604は、メディアファイルのファイルレベルを示すメタデータを、フラグメントメディアファイルのメタデータボックスに充填するように構成される。合成モジュール604は、抽出されたメディアデータ、及びメディアデータを記述するメタデータを、フラグメントメディアファイルのフラグメントボックスにおけるメディアデータボックス、及びフラグメントレベルのメタデータボックスに対応して充填するように構成される。図4に示す構造を参照し、合成モジュール604は、メディアファイルのタイプ及び互換性を示すデータを、moovボックスに充填し、メディアファイルのファイルレベルを示すメタデータをmoofボックスに充填し、抽出されたメディアデータ、及びメディアデータを記述するメタデータをmdatボックスに充填するように構成される。本実施例に示した技術的解決手段により、メディアデータに対するカプセル化及び充填により、独立して復号することに用いられる完全なフラグメントメディアファイルを取得することができる。
本開示の一実施例では、合成モジュール604は、さらに、フラグメントメディアファイルのサブボックスに対応する装置において、サブボックスとネスト関係を有するサブボックスとのマージを完了するためにクラスの書き込み操作機能を呼び出すように構成される。
本開示の一実施例では、合成モジュール604は、さらに、クラスの書き込み操作機能を呼び出してサブボックスのメモリバッファに2値データの書き込み及びマージを完了し、そして、クラスのインスタンスを返すように構成され、返されたインスタンスがサブボックスとネスト関係を有するサブボックスとのマージに用いられる。
本開示の一実施例では、合成モジュール604は、さらに、書き込まれた2値データを記憶するために、クラスStreamにより1つのメモリバッファを提供するように構成される。Streamによる静的な方法で、充填される複数バイトの10進データを2値データに変換する。各クラスStreamのインスタンスによって提供される書き込み操作機能により、メモリバッファにサブボックスに充填される2値データのマージを完了する。方法としては、1つの新たなStreamインスタンスを返し、本実施例に示した技術的解決手段により、現在のサブボックスとネスト関係を有する他のサブボックスとのマージを実現し、それによりサブボックスの調整を柔軟に実現することができる。
本開示の一実施例では、メディアファイルのメタデータボックスにカプセル化されたメタデータを解析する前にメディアファイルのメタデータを要求することをさらに含み、元の解像度メディアファイル又はターゲット解像度メディアファイルのメタデータを要求する時、まず要求されたバッファが既に要求されたか否かをチェックし、既に要求されたら、メディアデータを要求し続け、メタデータを繰り返し要求せず、本実施例に示した技術的解決手段により、既に要求されたメディアデータを利用して、データ取得の手間を省き、動作速度を向上させることができる。
本開示の一実施例では、合成モジュール604は、さらに、メタデータボックスのメディアファイルにおける位置に基づいて、メディアファイルの2値データからメタデータボックスに対応する2値データを取得し、取得した2値データのうちメタデータボックスヘッダの基準長さに対応する2値データを順次解析して、メタデータボックスにおけるサブボックスのボックスタイプ、及びサブボックスのボックスデータの長さを得て、サブボックスのボックスタイプに対応するタイプのパーサーを呼び出し、未解析データのうちボックスデータの長さに対応する2値データを順次解析し、ボックスデータが示すメディア情報を得るように構成される。
本開示の一実施例では、プレーヤが所定期間内のメディアデータを取得する流れについて説明する。ウェブページに埋め込まれるプレーヤにより1つのビデオファイル又は1つのトラックのメディアファイルを再生する時、プレーヤは、データストリームを正確に解析でき、一定の時間に対応するメディアデータを取得し、かつそのメディアデータが独立して復号されることを確保しなければならない。
本開示の実施例に係るメディアファイル変換装置を参照しながら、本開示の実施例を実現するメディアファイル変換方法を説明し、以下、メディアファイルがMP4ファイルであることを例として、ダウンロードに記載のMP4ファイルに対する変換方法に基づいて、MKV、WMV、ASF等の他の非ストリーミングメディアフォーマットのメディアファイルに容易に適用できることを理解できる。
図7に示すように、図7は本開示の実施例に係るメディアファイル変換方法の選択可能なフローチャートであり、図7に示すステップを参照しながら説明する。
ステップ701、メディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得る。
本開示の一実施例では、メディアファイルは、MP4ファイルであり、メディアファイルのメタデータボックスにおけるサブボックスのネスト構造を解析し、ネスト構造に基づいて各サブボックスにおける2値データを読み出し、読み出された2値データから各サブボックスが特徴付けるメディアデータのメディア情報を解析する。
図2に示す構造を参照し、MP4ファイルのmoovボックスは、ネスト構造であり、メタデータボックスにおけるサブボックスのネスト構造を解析し、moovボックスにネスティングされたサブボックス、例えばmvhdボックス、オーディオトラックボックス及びビデオトラックボックス等を決定し、サブボックスにボックスもネスティングされると解析を継続し、ボックスがネスティングされないサブボックスまで解析し、このとき、対応するサブボックスにカプセル化された2値データを読み取り、解析して2値データが示すメディアメッセージ、例えばstss boxに記録されたメディアファイル内のキーフレームの番号、stsz boxに記録されたメディアファイルにおける各サンプリングの容量(即ちサイズ)等を得る。
本開示の一実施例では、ボックスタイプに基づいてパーサーを設け、ボックスタイプに基づいてメタデータボックス内のサブボックスを解析することによりメディア情報を得る方式を提供し、図8を参照しながら説明する。
図8に示すように、図8は、本開示の実施例に係るメタデータボックスから解析してメディア情報を得る選択可能なフローチャートであり、図8に示すステップを参照しながら説明する。
ステップ801、メタデータボックスのメディアファイルにおける位置を決める。
一実施例では、メディアファイルの2値データからボックスヘッダの基準長さに一致する2値データを読み取り、読み取られた2値データから識別されるボックスのタイプや長さに基づいて、メディアファイルにおけるメタデータボックスのオフセット量及び容量を位置決めする。
例えば、メディアファイルの2値データについて、ゼロバイトから開始する2値データがファイルタイプボックスに対応し、ボックスヘッダの基準長さにより、メディアファイルの2値データの開始位置を読み取り、ボックスヘッダの基準長さに一致する2値データを読み取り、読み取られた2値データを解析してメディアファイル内のファイルタイプボックスの後にあるボックスのタイプ及び長さを決定する。
解析されたタイプがファイルタイプボックスであれば、メタデータボックスの長さ(即ち容量)を解析することができ、このとき、メタデータボックスのオフセット量は、ファイルタイプボックスの長さである。
解析されたタイプがメディアデータボックスであると、メディアデータボックスの長さとタイプボックスの長さがオフセット量であることに基づいて、ボックスヘッダの基準長さに一致する2値データを読み取り続け、それによりメタデータボックスの長さ(即ち容量)を解析することができ、このとき、メタデータボックスの長さは、ファイルタイプボックスの長さとメディアデータボックスの長さとの和である。
メディアファイルは、最初のボックスがファイルタイプボックスである他、後のボックスのカプセル化順序が規範化されず、上記解析方式により、メディアファイルにおけるボックスのカプセル化順序が、ファイルタイプボックス、メタデータボックス及びメディアデータボックスであるか、又はファイルタイプボックス、メディアデータボックス及びメタデータボックスであるに関わらず、ファイルタイプボックスのメディアファイルにおける位置を正確で、効果的に位置決めすることができる。
ステップ802、メタデータボックスのメディアファイルにおける位置に基づいて、メディアファイルの2値データからメタデータボックスに対応する2値データを取得する。
メタデータボックスのメディアファイルにおける位置がオフセット量及び容量で表され、読み取られた2値データの長さがメタデータボックスの容量に一致するまで、メディアファイルからオフセット量に対応する位置から2値データを読み取り始め、それによりメタデータボックスに対応する2値データを読み出す。
ステップ803、メタデータボックス2値データのうちボックスヘッダの基準長さに対応する2値データを順次解析して、メタデータボックスにおけるサブボックスのボックスタイプ、及びサブボックスのボックスデータの長さを得る。
一実施例では、メタデータボックスに複数のサブボックスがネスティングされる場合、毎回読み取られた2値データのオフセット量がいずれも既に識別されたサブボックスの長さの和であり、読み取られた2値データの長さがボックスヘッダの基準長さに一致し、それにより現在処理されたサブボックスのタイプ及び長さを解析することができる。
例えば、初回に読み取る時、メタデータボックスの2値データのゼロバイトから2値データを読み取り始め、かつ読み取られた2値データの長さがボックスヘッダの基準長さに一致し、それにより1番目のサブボックスのタイプ及び長さを解析することができる。2回目に読み取る時、初回に読み取られたサブボックスの長さをオフセット量として、2値データを読み取り始め、かつ読み取られた2値データの長さがボックスヘッダの基準長さに一致し、それにより2番目のサブボックスのタイプ及び長さを解析することができる。
上記方法で2値データを読み取ったら、読み取りすぎによるロールバックが発生せず、完全に読み取らないため再度読み取る場合もなく、解析効率及び正確度が保証される。
ステップ804、サブボックスのボックスタイプに対応するタイプのパーサーを呼び出し、未解析データのうち、ボックスデータの長さに対応する2値データを順次解析し、ボックスデータが示すメディア情報を得る。
一実施例では、メタデータボックスにネスティングされた典型的なボックスタイプを予めマーキングし、ボックスが2値データを直接的にカプセル化するか又はボックスをさらにカプセル化するかを示すために用いられ、例えば、図2に示すmvhd box、audio track box及びvideo track box等に対してボックスをさらにカプセル化するとマーキングし、図2に示すstts box、stsd box等に対して2値データを直接的にカプセル化するとマーキングする。
2値データを直接的にカプセル化するとマーキングされるボックスタイプに対して、ボックスタイプに1対1に対応するパーサーを設け、パーサーは2値データに基づいて示されるメディア情報を解析するために用いられる。ステップ804では、ステップ803で解析されたサブボックスのボックスタイプと予めマーキングされたボックスタイプとを比較する時、以下の2つのケースが存在する。
ケース1)照合によりサブボックスのボックスタイプが予めマーキングされ、かつ2値データを直接的にカプセル化するために用いられると予めマーキングされると決定すると、サブボックスのボックスタイプに対応するパーサーを呼び出し、パーサーでサブボックス内のボックスデータを解析することにより、ボックスデータが示すメディア情報を得る。
ケース2)照合によりサブボックスのボックスタイプが予めマーキングされ、かつボックスをカプセル化し続けるために用いられると予めマーキングされると決定すると、メディアファイルにおけるボックスヘッダの基準長さに基づいて、サブボックスに対応する2値データを再帰的に解析し、サブボックスにカプセル化されたボックスのボックスタイプが予めマーキングされ、かつ2値データを直接的にカプセル化するために用いられると予めマーキングされるまで解析し、サブボックスにカプセル化されたボックスのボックスタイプに対応するパーサーを呼び出し、2値データをバイトで解析し、解析された2値データの長さは、サブボックスにカプセル化されたボックスのボックスデータの長さに対応し、それによりサブボックスにカプセル化されたボックスのボックスデータが示すメディア情報を得る。
一実施例では、メタデータボックスを解析する過程でメディア情報を記録する方式について説明し、メタデータボックス2値データにおいてボックスヘッダの基準長さに対応する2値データを順次解析し、メタデータボックスにおけるサブボックスのボックスタイプを得る時、サブボックスと所属するボックスとの間のネスティング関係、及びサブボックスとカプセル化されたボックスとのネスティング関係に基づいてオブジェクトを確立し、サブボックスのボックスタイプが2値データを直接的にカプセル化するために用いられると予めマーキングされる時、対応するサブボックスが確立するオブジェクトにはメディア情報を含む配列を記憶し、記憶されたメディア情報はサブボックスのボックスデータによって示される。
例えば、図2では、解析されるサブボックスのタイプがstts boxである時、stts boxが2値データを直接的にカプセル化すると予めマーキングされるため、対応するstts boxが確立するオブジェクトにはメディア情報を含む配列を記憶し、ここでメディア情報はstts boxのボックスデータが示す時間長情報である。
一実施例では、メタデータボックスを解析する過程でサブボックス間のネスティング関係を記録する方式について説明し、メタデータボックス2値データにおいてボックスヘッダの基準長さに対応する2値データを順次解析し、メタデータボックスにおけるサブボックスのボックスタイプを得る時、ボックスタイプが2値データを直接的にカプセル化すると予めマーキングされる場合、呼び出されたパーサーに解析されたサブボックスを記録する。記録されたサブボックスのインスタンスをサブボックス属性に設定し、サブボックス属性はサブボックスが所属するボックスに含まれ、サブボックスと所属するボックスとの間のネスティング関係を記述するために用いられる。
例えば、図2では、解析されたサブボックスのタイプがstsd boxである時、stsd boxが2値データを直接的にカプセル化すると予めマーキングされるため、stsd boxに対応するパーサーにstsd boxを記録し、stsd boxのインスタンスをstbl boxサブボックス属性に設定し、これによって類推し、最後にstsd boxのサブボックス属性にstsd box、stts box、stsc box等のstbl boxにネスティングされた複数のサブボックスを記録している。
一実施例では、照合によりサブボックスのボックスタイプが予めマーキングされないか、又は2値データを直接的にカプセル化するが対応するタイプのパーサーが呼び出されなかったと予めマーキングされると決定する時、サブボックスに対応する2値データの解析を無視し、サブボックスの長さに基づいて、2値データにおける次のサブボックスに対応する部分にジャンプして解析し続ける。
実際に、メディアファイルにカスタマイズされたボックスタイプが出現し、ジャンプ方式がメタデータボックスの解析全体の進捗に影響を及ぼすことがなく、またパーサーを設置する方式により、メタデータボックスのボックスタイプが変化する時、対応するタイプのパーサーを追加、削除、修正することにより、最新のメタデータボックスに対する互換性のある解析を迅速に実現することができ、アップグレードが柔軟で迅速であるという特徴がある。
ステップ702、メディア情報が示すメディアデータの時間に基づいて、所定期間のメディアデータを検索する。
本開示の一実施例では、図9に示すように、図9は本開示の実施例に係るメディアファイルから所定期間のメディアデータを検索する選択可能なフローチャートであり、図9に示すステップを参照しながら説明する。
ステップ901、メディアデータの時間に基づいてメディアファイルにおける2つのキーフレームを検索し、2つのキーフレームは所定期間の開始時間と終了時間に対応する。
本開示の一実施例では、メディアデータの時間に基づいてメディアファイルにおける2つのキーフレームを検索する時にメディアデータの時間に基づいて、復号時間が所定期間の開始時間に一致する第1のキーフレームの番号を検索し、又は、復号時間が所定期間の開始時間よりも早いキーフレームのうち、開始時間に最も近い第1のキーフレームの番号を検索する。メディアデータの時間に基づいて、復号時間が所定期間の終了時間に一致する第2のキーフレームの番号を検索し、又は、復号時間が所定期間の終了時間よりも遅いキーフレームのうち、終了時間に最も近い第2のキーフレームの番号を検索する。
例えば、メディアファイルの時間長が120秒であり、そのうちいくつかのキーフレームを含み、所定期間が20~40秒である場合、フレームの復号時間とフレームの番号とのマッピング関係に基づいて、まず、復号時間がちょうど20秒目のキーフレームがあるか否かを検索し、存在する場合、復号時間がちょうど20秒目のキーフレームを第1のキーフレームとする。存在しない場合、復号時間が20秒目より早く、かつ、開始時間の20秒目に最も近い1つのキーフレームを第1のキーフレームとして検索する。
次に、復号時間がちょうど40秒目にあるキーフレームがあるか否かを検索し、存在する場合、復号時間がちょうど40秒目のキーフレームを第2のキーフレームとする。存在しない場合、復号時間が40秒目よりも遅く、かつ、40秒目に最も近い1つのキーフレームを第2のキーフレームとして検索する。
ビデオフレームにおけるキーフレームを検索する方式により、開始時間が通常のフレームに対応するためジャンプされるフレームが再生できない状況を回避しつつ、無駄なデータの取得を最大限に低減し、ネットワーク伝送時にトラフィックを節約することができる。
ステップ902、メディアデータの時間に基づいて2つのキーフレーム間のビデオフレームと整列するオーディオフレームを検索する。
一実施例では、プレーヤは、次のようにメディアデータの時間から所定期間に一致するオーディオフレームを検索することができる。メディアデータの時間から復号時間が所定期間に基づいて分布するオーディオフレームを検索し、ビデオフレームを基準として、ビデオフレームに時間が同期したオーディオフレームを位置決めする。ここで、再生ポイントの時間に対応するオーディオフレームが存在する場合、最初のオーディオフレームの復号時間が所定期間の開始時間に一致する。再生ポイントの時間に対応するオーディオフレームが存在しない場合、最初のオーディオフレームの復号時間が所定期間の開始時間よりも早く、かつ開始時間に最も近く、最初のオーディオフレームの復号時間が最初のビデオフレーム(上記第1のキーフレーム)の復号開始時間よりも遅くないことを保証する。所定期間の終了時間に対応するオーディオフレームが存在する場合、最後のオーディオフレームの復号時間が所定期間の終了時間に一致する。所定期間の終了時間に対応するオーディオフレームが存在しない場合、最後のオーディオフレームの復号時間が所定期間の終了時間よりも遅く、かつ終了時間に最も近く、最後のオーディオフレームの復号時間が最後のビデオフレーム(上記第2のキーフレーム)の復号時間よりも早くないことを保証する。
オーディオフレームを検索する上記方式により、形成されたビデオフレームと対応するオーディオフレームを含むフラグメントメディアファイルは出現する可能性があるビデオ、オーディオ時間長が一致しないという問題を解消し、各フレームのビデオ再生時に同期したオーディオが再生され、音声がない現象が発生しないことを保証する。
ステップ903、メディアデータの位置に基づいて、2つのキーフレーム間のビデオフレームのメディアファイルにおける位置を検索し、かつオーディオフレームのメディアファイルにおける位置を検索する。
一実施例では、ステップ703によれば、メディアデータのメディアファイルにおける位置を2つの区間として示すことができる。1つ目の区間は、即ちメディアファイルにおける2つのキーフレーム間のビデオフレームの位置であり、メディアファイルのメディアデータボックスにおけるオフセット量及び容量を含む。二つ目の区間は、即ちメディアファイルにおける2つのオーディオフレーム間のオーディオフレームの位置であり、メディアファイルのメディアデータボックスにおけるオフセット量及び容量を含む。ここで、オフセット量はメディアファイルのメディアデータボックスにおけるメディアデータの記憶開始位置を特徴付け、容量はメディアデータの記憶開始位置から占有し始める長さを特徴付ける。
他の実施例では、メディアデータのメディアファイルにおける位置は1つの区間として示され、2つのキーフレーム間のビデオフレームの位置に対応するオフセット量及び容量、並びにビデオフレームと整列するオーディオフレームの位置に対応するオフセット量及び容量に基づいて、最小オフセット量と最大容量で構成される区間を決定する。
例えば、第1のキーフレームと第2のキーフレームとの間のビデオフレームのターゲット解像度メディアファイルにおける位置のオフセット量は、対応区間が[a,b](アドレスが昇順)であり、オーディオフレームのターゲット解像度メディアファイルにおける位置のオフセット量は、対応区間が[c,d](アドレスが昇順)であれば、位置の上限と下限で構成される区間、即ち[min(a,c)、max(b,d)]を取る。
1つの区間を決定する上記方式により、メディアファイルから所定時間のメディアデータを一括して抽出することができ、プレーヤの読み取り回数を減らし、処理効率を向上させる。このように、プレーヤは、ターゲット区間のオフセット量及び容量を搬送するネットワークリクエストをサーバに送信して、ターゲット区間のメディアデータを要求し、サーバはターゲット区間のオフセット量及び容量に基づいてメディアファイル内のメディアデータを抽出した後に、再度取得する必要がなく、ターゲット区間のメディアデータを一括して返信することができ、プレーヤの要求回数を減らし、処理効率を向上させる。
図2に示す構造を参照し、本実施例に示した技術的解決手段により、ネスト構造におけるビデオフレームの決定を実現し、オーディオトラック(audio track)ボックスにおける対応するオーディオフレーム位置の決めを実現することができる。
ウェブページに埋め込まれたプレーヤにより所定期間のメディアファイルを再生する時、所定期間に基づくメディアデータで構成されたフラグメントメディアファイルに対して、メディアファイルにある一部のメディアデータの、オフセット量及び容量を含む位置を知る必要があり、メディアデータを正確に抽出してフラグメントメディアファイルを構成し、それにより正確に復号できる。
ステップ703、前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索する。
以下、メディアファイルが図4に示すカプセル化構造を用いることを例として、メディアファイルから所定期間のメディアデータのメディアファイルにおける位置を検索することを説明し、図10に示すように、図10は、本開示の実施例に係るメディアファイルから所定期間のメディアデータの位置を検索する選択可能なフローチャートであり、図10に示すステップを参照しながら説明する。
ステップ1001、取得されるメディアデータに対応する期間を決定する。
期間は再生ポイントに続く一定の時間であり、再生ポイントに対応する時間はメディア時間座標系(メディアファイルの再生開始時間を時間原点とする)の時間に対して測定され、期間の長さはメディアファイルの長さよりも小さく、例えばメディアファイル長さの所定割合の5%であり、又は10分間等の所定の長さである。
ステップ1002、sttsボックス(box)をチェックして復号時間が所定期間内にあるサンプリング(ビデオフレームとオーディオフレームを含む)の番号を決定する。
例えば、オーディオフレームについては、stts boxをチェックして、復号時間が所定期間に対応するオーディオフレームの番号を決定する。ビデオフレームについては、圧縮アルゴリズムを用いるため、所定期間内の最初のフレームがキーフレームでなければ、時間的に所定期間の開始時間に遡ってキーフレームを検索する必要もあり、それにより所定期間内のフレームが復号されることを保証する。
ステップ1003、サンプリングの番号に基づいてstsc boxをクエリし、サンプリングを含むブロックの番号を決定する。
ステップ1004、ブロックの番号に基づいて、stco boxからブロックのオフセット量を検索する。
ステップ1005、サンプリングの番号に基づいてstsz boxを検索し、サンプリングのブロック内におけるオフセット量及びサンプリングの容量を見つける。
stsz boxには、サンプリングの番号及び容量が記録され、ブロックのオフセット量とサンプリングのブロック内におけるオフセット量を加算し、サンプリングのmdatボックス(box)におけるオフセット量を得る。
ステップ1006、オフセット量が最小のブロックに対応するオフセット量、及び対応するサンプリングのブロック内におけるオフセット量を加算し、所定期間のメディアデータのオフセット量とする。
ステップ1007、オフセット量が最大のブロックに対応するオフセット量、対応するサンプリングのブロック内におけるオフセット量、及び対応するサンプリングの容量を加算し、メディアデータをカバーできる長さとし、かつメディアデータのオフセット量と減算を行い、メディアデータの容量を得る。
ステップ1006及びステップ1007について、所定期間内のオーディオフレームの位置(オフセット量と容量を含む)、及び所定期間内のビデオフレームの位置(オフセット量と容量を含む)を計算し、ビデオフレームとオーディオフレームがmdat boxに記憶される時に占有される区間をそれぞれ得る。
ステップ704、メディアファイルのメディアデータボックスから対応する位置のメディアデータを抽出する。
本開示の一実施例では、メディアファイルデータのメディアデータボックスにおける位置はステップ703に記載の2つの区間を用いて示す時、即ちビデオフレーム及びオーディオフレームに対応する区間をそれぞれ用いて示す時、ビデオフレームの位置に基づいて、メディアデータボックスからビデオフレームに対応する2値データを抽出する。オーディオフレームの位置に基づいてメディアデータボックスから対応する2値データを抽出する。
本開示の一実施例では、メディアファイルデータのメディアデータボックスにおける位置は上記実施例に記載の1つの区間を用いて示す時、メディアファイルのメディアデータボックスの対応する区間内からメディアデータを一括して抽出し、メディアデータに対する処理効率を効果的に向上させ、特にネットワーク伝送が必要な時に接続への占有、及びトラフィックの消費を顕著に節約する。
本実施例に示した技術的解決手段により、対応するオーディオフレームとビデオフレームを一括して抽出して取得して、メディアファイルの処理速度を向上させることを実現できる。
ステップ705、抽出されたメディアデータ、及びメディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得る。
本開示の一実施例では、図11に示すように、図11は、本開示の実施例に係るフラグメントメディアファイルをカプセル化する選択可能なフローチャートであり、図11に示すステップを参照しながら説明する。
ステップ1101、フラグメントメディアファイルのタイプ及び互換性を示すデータを、フラグメントメディアファイルのファイルタイプボックスに充填する。
例えば、カプセル化して図4に示すカプセル化構造を形成するFMP4ファイルを例として、FMP4ファイルのファイルタイプボックス、即ちftyp boxのヘッダにボックスのタイプと長さ(ftyp boxの全長を示す)を充填し、ftyp boxのデータ部分に、ファイルタイプがFMP4及び互換プロトコルであることを示すデータ(2値データ)を充填し生成する。
ステップ1102、フラグメントメディアファイルのファイルレベルを示すメタデータを、フラグメントメディアファイルのメタデータボックスに充填する。
一実施例では、フラグメントメディアファイルのカプセル化構造に充填されるメディアデータに基づいて、フラグメントメディアファイルにおけるメタデータボックスのネスト構造に基づいて、ネスト構造を充填するために必要なメディアデータを記述するメタデータを計算する。
依然として図4を例として、FMP4ファイルのファイルレベルを示すメタデータを計算し、かつFMP4のメタデータボックス(即ちmoov box)に充填し、moov boxにmvhd、track及びビデオ拡張(mvex、movie extend)という3つのボックスがネスティングされている。
そのうち、mvhdボックスにカプセル化されたメタデータは、フラグメントメディアファイルの再生に関するメディア情報を示すために用いられ、メディア情報は、位置、時間長、作成時間及び修正時間等を含む。trackボックスにネスティングされたサブボックスはメディアデータにおける対応するトラックの引用及び記述を示し、例えばtrackボックスにトラックの特性及び情報全体(例えば時間長、幅及び高さ)を記述するボックス(tkhd boxと記す)、トラックのメディア情報(例えばメディアタイプ及びサンプリングの情報)を記録するボックス(mdia boxと記す)がネスティングされている。
ステップ1103、抽出されたメディアデータ、及びメディアデータを記述するメタデータを、フラグメントメディアファイルのフラグメントボックスにおけるメディアデータボックス、及びフラグメントレベルのメタデータボックスに対応して充填する。
一実施例では、フラグメントメディアファイルに1つ又は複数のフラグメント(fragment)がカプセル化されてもよく、充填されるメディアデータについて、フラグメントメディアファイルの1つ又はフラグメント化されたメディアデータボックス(即ちmdat box)に充填することができ、各フラグメントにフラグメントレベルのメタデータボックス(moof boxと記す)がカプセル化され、ここで充填されたメタデータはフラグメント内に充填されたメディアデータを記述するために用いられ、フラグメントを独立して復号させる。
図4を参照して、充填されるメディアデータをFMP4ファイルのカプセル化構造の2つのフラグメントに充填することを例として、各フラグメントメディアデータに充填する。対応するフラグメントに充填する必要があるフラグメントレベルのメタデータボックス(即ちmoof box)におけるメタデータを計算し、かつmoof boxにネスティングされたサブボックスに対応して充填し、そのうちmoof boxのヘッダをmoof boxと呼び、そのうち充填された2値データはボックスのタイプが「moof box」であること、及びmoof boxの長さを示すために用いられる。
ステップ1101~ステップ1103でデータを対応するボックスに充填する一実施例では、充填動作を実行する時、クラスの書き込み操作機能を呼び出してサブボックスのメモリバッファに2値データの書き込み及びマージを完了し、そして、クラスのインスタンスを返し、返されたインスタンスがサブボックスとネスト関係を有するサブボックスとのマージに用いられる。
データ充填の一例として、カプセル化機能を実現するためのクラスMP4を確立し、フラグメントメディアファイル内の各サブボックスをクラスStreamによる静的な方法にカプセル化する。2値データの操作機能を実現するためのクラスStreamを確立し、各クラスStreamに、充填される2値データを記憶するための1つのメモリバッファが設けられる。Streamによる静的な方法で、充填される複数バイトの10進データを2値データに変換する。クラスStreamのインスタンスによって提供される書き込み操作機能により、メモリバッファにサブボックスに充填される2値データのマージ及び充填を完了する。Streamによる静的な方法は、1つの新たなStreamインスタンスを返し、現在のサブボックスとネスト関係を有する他のサブボックスとのマージを実現する。
図12は本開示の実施例に係るメディアファイル変換方法の選択可能な使用シーンの概略図であり、図12を参照し、本開示の実施例に係るメディアファイル変換装置はユーザ端末10として実現でき、実現するために例示的な応用を提供し、ユーザ端末10(例示的なユーザ端末10-1及びユーザ端末10-2)はネットワーク20経由でサーバ30に接続され、ネットワーク20はワイドエリアネットワーク又はローカルエリアネットワークであってもよいし、又は両者の組み合わせであってもよく、無線リンクを使用してデータ伝送を実現する。
ユーザ端末10はプレーヤが埋め込まれたウェブページを介してメディアファイルを再生し、かつグラフィックインタフェース110(例示的なグラフィックインタフェース110-1及びグラフィックインタフェース110-2)により再生されたコンテンツを表示し、再生中に、ユーザ端末10が、メディアファイルのメタデータボックスにカプセル化された、サーバ30から取得されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を取得し、ここで、前記メディアファイルは非ストリーミングメディアフォーマットを用い、前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索し、前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索し、前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出し、抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得る。
図13は本開示の実施例に係るMP4ファイルをFMP4ファイルに変換してメディアソース拡張インタフェースにより再生する概略図であり、図13を参照し、プレーヤはメディアファイルのリアルアドレス(図におけるhttp://www.toutiao.com/a/b.mp4)に基づいて一定時間長を満たすメディアデータを取得し、次に取得されたメディアデータに基づいてフラグメントメディアファイルを構成し、即ちそれをフラグメントMP4フォーマットのメディアファイルに変換し、次にフラグメントメディアファイルをMSEのメディアソースオブジェクトに追加し(例えばクラスファイルオブジェクト(Blob)の方式で実現する)、MSEはメディアソースオブジェクトに対応する仮想URLを作成し、かつVideo要素に該仮想URLを伝達して、Video要素に対応するメディアソースオブジェクトを取得させ、前に述べるように抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号するために用いられるフラグメントメディアファイルを得る。
本開示に係るメディアファイル変換方法により、メディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得て、前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索し、前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索し、前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出し、抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得る。メディアファイルから任意の所定期間のメディアデータを抽出してフラグメントメディアファイルを構成することを実現でき、それにより、所定期間のメディアファイルを再生する必要がある場合、非ストリーミングメディアフォーマットのメディアファイルから所定期間のメディアデータを抽出し、独立して復号可能なフラグメントメディアファイルにカプセル化すればよい。それにより、非ストリーミングメディアフォーマットファイルが完全にダウンロードされなければ独立して再生できないという制限を解除し、再生のリアルタイム性が高い。また、完全なメディアファイルをストリーミングメディアフォーマットに予め変換する必要がなく、所定期間だけにフラグメントメディアファイルを構成すればよく、変換遅延が小さいため、予め記憶しておく必要がなく、本来のメディアファイルを除き、余分な記憶スペースを占有することがなく、記憶スペースへの占有を著しく低減する。
以上で説明したのは、本開示の好ましい実施例にすぎず、本開示の保護範囲を限定するためのものではなく、本開示の趣旨と原則から逸脱せずに行った修正、同等な切り替え及び改良等が、全て本開示の保護範囲に含まれるべきである。
20 ネットワーク
30 サーバ
501 プロセッサ
502 メモリ
503 ユーザインタフェース
504 ネットワークインタフェース
601 解析モジュール
602 検索モジュール
603 抽出モジュール
604 合成モジュール
5021 オペレーティングシステム
5022 アプリケーション

Claims (16)

  1. 非ストリーミングメディアフォーマットを用いるメディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るステップと、
    前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索するステップと、
    前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索するステップと、
    前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出するステップと、
    抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得るステップと、を含み、
    前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索するステップが、
    前記メディアデータの時間に基づいて、前記メディアファイルにおける前記所定期間の開始時間及び終了時間にそれぞれ対応する2つのキーフレームを検索することと、
    前記メディアデータの時間に基づいて、前記2つのキーフレーム間のビデオフレームと整列するオーディオフレームを検索することと、
    前記メディアデータの位置に基づいて、前記2つのキーフレーム間の前記ビデオフレームの前記メディアファイルにおける位置を検索し、かつ前記オーディオフレームの前記メディアファイルにおける位置を検索することと、
    を含み、
    前記メディアデータの時間に基づいて、前記2つのキーフレーム間のビデオフレームと整列するオーディオフレームを検索するステップが、
    前記メディアデータの時間に基づいて、復号時間が前記所定期間にあるオーディオフレームを検索すること、を含み、
    前記所定期間の開始時間に対応するオーディオフレームが存在する場合、最初のオーディオフレームの復号時間が前記所定期間の開始時間に一致し、前記所定期間の開始時間に対応するオーディオフレームが存在しない場合、最初のオーディオフレームの復号時間が前記所定期間の開始時間よりも早く、かつ開始時間に最も近く、前記所定期間の終了時間に対応するオーディオフレームが存在する場合、最後のオーディオフレームの復号時間が前記所定期間の終了時間に一致し、前記所定期間の終了時間に対応するオーディオフレームが存在しない場合、最後のオーディオフレームの復号時間が前記所定期間の終了時間よりも遅く、かつ終了時間に最も近い
    メディアファイル変換方法。
  2. 前記メディアデータの時間に基づいて、前記メディアファイルにおける2つのキーフレームを検索するステップが、
    前記メディアデータの時間に基づいて、復号時間が前記所定期間の開始時間に一致する第1のキーフレームを検索すること、又は、復号時間が前記所定期間の開始時間よりも早いキーフレームのうち、前記開始時間に最も近い第1のキーフレームを検索することと、
    前記メディアデータの時間に基づいて、復号時間が前記所定期間の終了時間に一致する第2のキーフレームを検索すること、又は、復号時間が前記所定期間の終了時間よりも遅いキーフレームのうち、前記終了時間に最も近い第2のキーフレームを検索することと、
    を含む、請求項に記載の方法。
  3. メディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るステップが、
    前記メタデータボックスにおけるサブボックスのネスト構造を解析し、前記ネスト構造に基づいて各サブボックスにおける2値データを読み出すことと、
    読み出された2値データから各サブボックスが特徴付ける前記メディアデータのメディア情報を解析することと、を含む、請求項1に記載の方法。
  4. 前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出するステップが、
    2つのキーフレーム間のビデオフレームの位置に対応するオフセット量及び容量、並びに前記ビデオフレームと整列するオーディオフレームの位置に対応するオフセット量及び容量に基づいて、最小オフセット量と最大容量で構成される区間を決定することと、
    前記メディアファイルのメディアデータボックスの対応する区間から前記所定期間のメディアデータを抽出することと、を含む、請求項1に記載の方法。
  5. 前記オフセット量は前記メディアファイルのメディアデータボックスにおけるメディアデータの記憶開始位置を特徴付け、前記容量は前記記憶開始位置からメディアデータが占有する長さを特徴付ける、請求項に記載の方法。
  6. 抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化するステップが、
    前記メディアファイルのタイプ及び互換性を示すデータを、前記フラグメントメディアファイルのファイルタイプボックスに充填することと、
    前記メディアファイルのファイルレベルを示すメタデータを、フラグメントメディアファイルのメタデータボックスに充填することと、
    抽出されたメディアデータ、及びメディアデータを記述するメタデータを、フラグメントメディアファイルのフラグメントボックスにおけるメディアデータボックス、及びフラグメントレベルのメタデータボックスに対応して充填することと、
    を含む、請求項1に記載の方法。
  7. 抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化するステップが、
    クラスの書き込み操作機能を呼び出してフラグメントメディアファイルのサブボックスのメモリバッファに2値データの書き込み及びマージを完了することと、
    サブボックスとネスト関係を有するサブボックスとのマージをすることと、を含む、請求項1からの何れか1項に記載の方法。
  8. 非ストリーミングメディアフォーマットを用いるメディアファイルのメタデータボックスにカプセル化されたメタデータを解析し、前記メディアファイルのメディアデータボックスにカプセル化されたメディアデータを記述するためのメディア情報を得るように構成される解析モジュールと、
    前記メディア情報が示す前記メディアデータの時間に基づいて、所定期間のメディアデータを検索し、そして、前記メディア情報が示す前記メディアデータの前記メディアファイルにおける位置に基づいて、前記所定期間のメディアデータの前記メディアファイルにおける位置を検索するように構成される検索モジュールと、
    前記メディアファイルのメディアデータボックスから前記位置に対応するメディアデータを抽出するように構成される抽出モジュールと、
    抽出されたメディアデータ、及び前記メディアデータを記述するメタデータをフラグメントメディアファイルのカプセル化構造に基づいてカプセル化し、独立して復号することに用いられるフラグメントメディアファイルを得るように構成される合成モジュールと、を含み、
    前記検索モジュールが、前記メディアデータの時間に基づいて、前記メディアファイルにおける前記所定期間の開始時間及び終了時間にそれぞれ対応する2つのキーフレームを検索するように配置され、
    前記検索モジュールが、前記メディアデータの時間に基づいて、2つのキーフレーム間のビデオフレームと整列するオーディオフレームを検索するように配置され、
    前記検索モジュールが、前記メディアデータの位置に基づいて、前記2つのキーフレーム間の前記ビデオフレームの前記メディアファイルにおける位置を検索して、前記オーディオフレームの前記メディアファイルにおける位置を検索するように配置され、
    前記検索モジュールが、前記メディアデータの時間に基づいて、復号時間が前記所定期間にあるオーディオフレームを検索するように配置され、
    前記検索モジュールが、前記所定期間の開始時間に対応するオーディオフレームが存在する場合、最初のオーディオフレームの復号時間が前記所定期間の開始時間に一致し、前記所定期間の開始時間に対応するオーディオフレームが存在しない場合、最初のオーディオフレームの復号時間が前記所定期間の開始時間よりも早く、かつ開始時間に最も近く、前記所定期間の終了時間に対応するオーディオフレームが存在する場合、最後のオーディオフレームの復号時間が前記所定期間の終了時間に一致し、前記所定期間の終了時間に対応するオーディオフレームが存在しない場合、最後のオーディオフレームの復号時間が前記所定期間の終了時間よりも遅く、かつ終了時間に最も近いように配置される
    メディアファイル変換装置。
  9. 前記検索モジュールが、前記メディアデータの時間に基づいて、復号時間が前記所定期間の開始時間に一致する第1のキーフレームを検索するように配置され、
    前記検索モジュールが、復号時間が前記所定期間の開始時間よりも早いキーフレームのうち、前記開始時間に最も近い第1のキーフレームを検索するように配置され、
    前記検索モジュールが、前記メディアデータの時間に基づいて、復号時間が前記所定期間の終了時間に一致する第2のキーフレームを検索するように配置され、
    前記検索モジュールが、復号時間が前記所定期間の終了時間よりも遅いキーフレームのうち、前記終了時間に最も近い第2のキーフレームを検索するように配置される、請求項に記載の装置。
  10. 前記解析モジュールが、前記メタデータボックスにおけるサブボックスのネスト構造を解析し、前記ネスト構造に基づいて各サブボックスにおける2値データを読み出すように配置され、
    前記解析モジュールが、読み出された2値データから各サブボックスが特徴付ける前記メディアデータのメディア情報を解析するように配置される、請求項に記載の装置。
  11. 前記抽出モジュールが、2つのキーフレーム間のビデオフレームの位置に対応するオフセット量及び容量、並びに前記ビデオフレームと整列するオーディオフレームの位置に対応するオフセット量及び容量に基づいて、最小オフセット量と最大容量で構成される区間を決定するように配置され、
    前記メディアファイルのメディアデータボックスの対応する区間から前記所定期間のメディアデータを抽出するように配置される、請求項に記載の装置。
  12. 前記オフセット量は前記メディアファイルのメディアデータボックスにおけるメディアデータの記憶開始位置を特徴付け、前記容量は前記記憶開始位置からメディアデータが占有する長さを特徴付ける、請求項11に記載の装置。
  13. 前記合成モジュールが、前記メディアファイルのタイプ及び互換性を示すデータを、前記フラグメントメディアファイルのファイルタイプボックスに充填するように配置され、
    前記合成モジュールが、前記メディアファイルのファイルレベルを示すメタデータを、フラグメントメディアファイルのメタデータボックスに充填するように配置され、
    前記合成モジュールが、抽出されたメディアデータ、及びメディアデータを記述するメタデータを、フラグメントメディアファイルのフラグメントボックスにおけるメディアデータボックス、及びフラグメントレベルのメタデータボックスに対応して充填するように配置される、請求項に記載の装置。
  14. 前記合成モジュールが、クラスの書き込み操作機能を呼び出してフラグメントメディアファイルのサブボックスのメモリバッファに2値データの書き込み及びマージを完了するように配置され、
    前記合成モジュールが、サブボックスとネスト関係を有するサブボックスとのマージをするように配置される、請求項から13の何れか1項に記載の装置。
  15. 実行可能な命令を記憶するように配置されるメモリと、
    前記実行可能な命令が実行されるとき、請求項1からの何れか1項に記載のメディアファイル変換方法を実現するプロセッサと、を含むメディアファイル変換装置。
  16. 実行可能な命令が記憶され、前記実行可能な命令が実行されるとき、請求項1からの何れか1項に記載のメディアファイル変換方法を実現するように配置される記憶媒体。
JP2020552076A 2018-05-29 2018-08-31 メディアファイル変換方法、装置及び記憶媒体 Active JP7068489B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810530467.5A CN110545490B (zh) 2018-05-29 2018-05-29 媒体文件转换方法、装置及存储介质
CN201810530467.5 2018-05-29
PCT/CN2018/103581 WO2019227751A1 (zh) 2018-05-29 2018-08-31 媒体文件转换方法、装置及存储介质

Publications (2)

Publication Number Publication Date
JP2021508429A JP2021508429A (ja) 2021-03-04
JP7068489B2 true JP7068489B2 (ja) 2022-05-16

Family

ID=68697358

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020552076A Active JP7068489B2 (ja) 2018-05-29 2018-08-31 メディアファイル変換方法、装置及び記憶媒体

Country Status (4)

Country Link
US (1) US11064269B2 (ja)
JP (1) JP7068489B2 (ja)
CN (1) CN110545490B (ja)
WO (1) WO2019227751A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112507148B (zh) * 2020-12-16 2024-10-11 北京华宇信息技术有限公司 媒体文件自动合成方法及装置
CN112584061B (zh) * 2020-12-24 2023-08-01 咪咕文化科技有限公司 多媒体通用模板生成方法、电子设备及存储介质
CN112687375A (zh) * 2021-01-06 2021-04-20 武汉联影医疗科技有限公司 Dicom文件传输方法、系统、装置、服务器和存储介质
CN113873176B (zh) * 2021-10-27 2024-03-08 北京奇艺世纪科技有限公司 一种媒体文件合并方法及装置
CN113973222A (zh) * 2021-12-02 2022-01-25 成都统信软件技术有限公司 一种视频播放方法、装置及计算设备
US20230412669A1 (en) * 2022-06-15 2023-12-21 Microsoft Technology Licensing, Llc Self-driven adaptive upload
US20230412866A1 (en) * 2022-06-15 2023-12-21 Microsoft Technology Licensing, Llc Self-driven adaptive upload
CN116110410B (zh) * 2023-04-14 2023-06-30 北京算能科技有限公司 音频数据处理方法、装置、电子设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003114845A (ja) 2001-10-03 2003-04-18 Hitachi Ltd メディア変換方法およびメディア変換装置
JP2006129078A (ja) 2004-10-28 2006-05-18 Canon Inc データファイル編集方法及び装置及び制御プログラム及び記憶媒体
JP2008199387A (ja) 2007-02-14 2008-08-28 Hitachi Software Eng Co Ltd 動画部分配信システム
US20090106288A1 (en) 2006-11-21 2009-04-23 Bailiang Yang Method and system for supporting media data of various coding formats

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6654933B1 (en) * 1999-09-21 2003-11-25 Kasenna, Inc. System and method for media stream indexing
CN102413358B (zh) * 2011-08-12 2014-04-16 青岛海信传媒网络技术有限公司 流媒体文件存储和播放的方法、装置及系统
CN102510519A (zh) * 2011-10-11 2012-06-20 成都市华为赛门铁克科技有限公司 流媒体数据的处理方法、播放方法以及装置
CN103051953B (zh) * 2012-12-30 2016-01-20 乐视网信息技术(北京)股份有限公司 一种利用视频播放器对视频文件进行解码方法
JP6411862B2 (ja) * 2013-11-15 2018-10-24 パナソニック株式会社 ファイル生成方法およびファイル生成装置
CN107979783B (zh) * 2016-10-25 2020-03-24 杭州海康威视数字技术股份有限公司 一种流式数据解析方法、装置及电子设备
CN106961613A (zh) * 2017-03-30 2017-07-18 上海七牛信息技术有限公司 一种流式实时转码点播方法及系统
US10694241B2 (en) * 2017-06-08 2020-06-23 T-Mobile Usa, Inc. Capturing border metadata while recording content

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003114845A (ja) 2001-10-03 2003-04-18 Hitachi Ltd メディア変換方法およびメディア変換装置
JP2006129078A (ja) 2004-10-28 2006-05-18 Canon Inc データファイル編集方法及び装置及び制御プログラム及び記憶媒体
US20090106288A1 (en) 2006-11-21 2009-04-23 Bailiang Yang Method and system for supporting media data of various coding formats
JP2008199387A (ja) 2007-02-14 2008-08-28 Hitachi Software Eng Co Ltd 動画部分配信システム

Also Published As

Publication number Publication date
JP2021508429A (ja) 2021-03-04
US11064269B2 (en) 2021-07-13
CN110545490A (zh) 2019-12-06
CN110545490B (zh) 2021-03-16
WO2019227751A1 (zh) 2019-12-05
US20200329283A1 (en) 2020-10-15

Similar Documents

Publication Publication Date Title
JP7068489B2 (ja) メディアファイル変換方法、装置及び記憶媒体
CN110545466B (zh) 基于网页的媒体文件的播放方法、装置及存储介质
JP7008829B2 (ja) ウェブページで解像度を切り替えてメディアファイルを再生する方法、装置及び記憶媒体
CN110545456B (zh) 媒体文件的同步播放方法、装置及存储介质
CN110545491B (zh) 一种媒体文件的网络播放方法、装置及存储介质
US11025991B2 (en) Webpage playing method and device and storage medium for non-streaming media file
WO2019227742A1 (zh) 媒体播放的加载控制方法、装置及存储介质
JP2021510991A5 (ja)
US20200413123A1 (en) Analysis method, device and storage medium of moov box
CN110545471B (zh) 基于离线转换的播放控制方法、装置及存储介质
CN110545463B (zh) 基于媒体文件转换的播放控制方法、装置及存储介质
CN110545461A (zh) 一种媒体文件的分辨率切换方法、装置及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200616

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210609

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210802

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211102

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220404

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220428

R150 Certificate of patent or registration of utility model

Ref document number: 7068489

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150