JP2022501891A - 人工知能についての装置及び方法 - Google Patents

人工知能についての装置及び方法 Download PDF

Info

Publication number
JP2022501891A
JP2022501891A JP2021514414A JP2021514414A JP2022501891A JP 2022501891 A JP2022501891 A JP 2022501891A JP 2021514414 A JP2021514414 A JP 2021514414A JP 2021514414 A JP2021514414 A JP 2021514414A JP 2022501891 A JP2022501891 A JP 2022501891A
Authority
JP
Japan
Prior art keywords
box
metadata
data
container file
sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2021514414A
Other languages
English (en)
Inventor
エムレ アクス
ミスカ ハンヌクセラ
ヨンネ ユハニ マキネン
ユハ−ペッカ ヒッペライネン
Original Assignee
ノキア テクノロジーズ オーユー
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ノキア テクノロジーズ オーユー filed Critical ノキア テクノロジーズ オーユー
Publication of JP2022501891A publication Critical patent/JP2022501891A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/83Generation or processing of protective or descriptive data associated with content; Content structuring
    • H04N21/84Generation or processing of descriptive data, e.g. content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/435Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • G06F16/164File meta data generation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/234Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
    • H04N21/23418Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/235Processing of additional data, e.g. scrambling of additional data or processing content descriptors
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/23Processing of content or additional data; Elementary server operations; Server middleware
    • H04N21/236Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
    • H04N21/23605Creation or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/20Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
    • H04N21/25Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
    • H04N21/266Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
    • H04N21/26603Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/434Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
    • H04N21/4343Extraction or processing of packetized elementary streams [PES]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/45Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
    • H04N21/466Learning process for intelligent management, e.g. learning user preferences for recommending movies
    • H04N21/4662Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
    • H04N21/4666Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/80Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
    • H04N21/85Assembly of content; Generation of multimedia applications
    • H04N21/854Content authoring
    • H04N21/85406Content authoring involving a specific file format, e.g. MP4 format

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Library & Information Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Computer Security & Cryptography (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Abstract

実施形態は、ISOベースメディアファイルフォーマットと互換性があるファイルフォーマットでビジュアルデータを受信することと、1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理することと、前記検出された1つ以上のコンテンツ要素、及び使用されたプロセスに関する情報を、メタデータとして記憶することと、前記ビジュアルデータに対応付けて前記メディアファイルに前記メタデータを含めることと、を含む方法に関する。実施形態はまた、この方法を実施するための技術機器に関する。【選択図】図6

Description

本ソリューションは、一般に、人工知能(Artificial Intelligence:AI)に関する。特に、本ソリューションは、人工知能メタデータを記憶及びシグナリングするための装置及び方法に関する。
背景
多くの実用的用途が、画像、動画などのメディアのコンテンツに関するセマンティック情報の利用可能性に依存する。セマンティック情報は、シーンのタイプ、特定の動作/行動の発生、特定の物体の存在などを表し得るメタデータによって表される。当該セマンティック情報は、メディアを分析することによって取得され得る。
近年、様々なニューラルネットワーク技術の発展により、生の画像データから直接、画像/動画コンテンツの様々な要素を認識するための学習が可能になってきている。例えば、それぞれのコンテンツからの視覚的又は聴覚的要素を認識するためのコンピュータの能力について説明するとき、「人工知能」(AI)という用語が用いられるが、それは、ニューラルネットワーク及び機械学習を含む一般的な用語である。
摘要
現在、改良された方法及び本方法を実施する技術機器が発明されており、それによって上記問題が緩和される。様々な態様は、方法、装置、及び内部に記憶されたコンピュータプログラムを含むコンピュータ可読媒体を含み、それらは、独立請求項で示されることを特徴とする。様々な実施形態は、従属請求項で開示される。
第1の態様によると、方法が提供される。当該方法は、コンテナファイルフォーマットでビジュアルデータを受信することと、1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理することと、前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶することと、前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含めることと、を含む。
第2の態様によると、装置が提供される。当該装置は、コンテナファイルフォーマットでビジュアルデータを受信する手段と、1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理する手段と、前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶する手段と、前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含める手段と、を備える。
第3の態様によると、装置が提供される。当該装置は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備え、前記コンピュータプログラムコードは、命令を含む。当該命令は、前記プロセッサによって実行されると、前記装置に、コンテナファイルフォーマットでビジュアルデータを受信させ、1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理させ、前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶させ、前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含ませる。
第4の態様によると、コンピュータプログラムコードを含むコンピュータプログラム製品が提供される。当該コンピュータプログラムコードは、少なくとも1つのプロセッサで実行されると、装置又はシステムに、コンテナファイルフォーマットでビジュアルデータを受信させ、1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理させ、前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶させ、前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含ませるように構成される。
一実施形態によると、前記コンテナファイルは、処理アルゴリズムについてのメタデータを含む第1のボックスを含む。
一実施形態によると、前記コンテナファイルは、前記1つ以上のコンテンツ要素についてのメタデータを含む第2のボックスを含む。
一実施形態によると、前記コンテナファイルは、複数の処理アルゴリズムのプロセスについてのメタデータを含む第3のボックスを含む。
一実施形態によると、前記コンテナファイルは、画像シーケンス又は動画であり、前記コンテナファイルは、前記メタデータを含むメディアトラックについてのメディアサンプル定義を含む。
一実施形態によると、前記コンテナファイルは、前記コンテナファイル内の情報を搬送する他のエンティティにコンテナを関連付けるための関係定義を含む。
一実施形態によると、前記ビジュアルデータは、前記1つ以上のコンテンツ要素を検出するために、1つ以上のニューラルネットワーク又は1つ以上の非ニューラルネットワークベースのアルゴリズムによって処理される。
一実施形態によると、前記コンピュータプログラム製品は、非一時的コンピュータ可読媒体に実装される。
以下、添付図面を参照して、様々な実施形態をより詳細に記載する。
実施形態に係る装置を示す。 畳み込みニューラルネットワークの例を示す。 HEIF(High Efficiency Image File Format)形式のAIプロパティストレージについての第1の実施形態を示す。 HEIF形式のAIプロパティストレージについての第2の実施形態を示す。 インテリジェントコンテンツについてのメディアフォーマットとしてのHEIFの例を示す。 ビジュアルコンテンツ認識についてのプロセスの例を示す。 実施形態に係る方法を示すフローチャートである。
例示的な実施形態の説明
以下、人工知能の文脈でいくつかの実施形態を記載する。特に、これらの実施形態は、メディアファイル内の人工知能メタデータの記憶及びシグナリングを可能にする。
図1は、一実施形態に係るデータ処理で使用されるのに好適なコンピュータシステムを示す。このコンピュータシステムの全体的な構造は、システムの機能ブロックに従って説明される。いくつかの機能は、単一の物理デバイスで実行され得、例えば、すべての計算手順は、必要があれば単一のプロセッサで実行され得る。図1の例に係る装置のデータ処理システムは、メイン処理ユニット100と、メモリ102と、記憶デバイス104と、入力デバイス106と、出力デバイス108と、グラフィクスサブシステム110と、を備え、これらはすべてデータバス112を介して互いに接続されている。
メイン処理ユニット100は、データ処理システム内でデータを処理するように配置された従来の処理ユニットである。メイン処理ユニット100は、1つ以上のプロセッサもしくはプロセッサ回路を備え得るか、又は1つ以上のプロセッサもしくはプロセッサ回路として実装され得る。メモリ102、記憶デバイス104、入力デバイス106、及び出力デバイス108は、当業者によって認識されるような従来の構成要素を含み得る。メモリ102及び記憶デバイス104は、データ処理システム100内のデータを記憶する。メモリ102には、例えば、機械学習プロセスを実施するためのコンピュータプログラムコードがある。入力デバイス106は、システム内にデータを入力し、一方、出力デバイス108は、データ処理システムからデータを受信し、例えば、ディスプレイにデータを転送する。データバス112は、従来のデータバスであり、単一のラインとして示されているが、プロセッサバス、PCIバス、グラフィカルバス、ISAバスの任意の組合せであってもよい。したがって、当業者は、この装置が、コンピュータデバイス、パーソナルコンピュータ、サーバコンピュータ、携帯電話、スマートフォン、又はインターネットアクセスデバイス、例えば、インターネットタブレットコンピュータなどの任意のデータ処理デバイスであり得ることを容易に認識する。
異なる実施形態によって、異なる部分が異なる要素で実行されることが可能になることが理解される必要がある。例えば、コンピュータシステムの様々なプロセスは、1つ以上の処理デバイス、例えば、1つのコンピュータデバイスで完全に、又は1つのサーバデバイスで、もしくは複数のユーザデバイス間で実行され得る。機械学習プロセスの要素は、1つのデバイス上にあるソフトウェア構成要素として実装され得るか、又は、例えば、複数のデバイスがいわゆるクラウドを形成するように、上述のように、これらのデバイス間で分配され得る。
多くのメディアファイルフォーマットのシンタックスは、タイプの階層リスト、及び長さプレフィックスデータチャンク又はボックスに基づいている。ここで、命名は、問題となるフォーマットに依存する。ISOベースメディアファイルフォーマット(ISO Base Media File Format:ISOBMFF)(ISO/IEC 14496−12)に従うコンテナファイルでは、メディアデータ及びメタデータは、様々なタイプのボックスで整理されている。多くのフォーマットがISOBMFFから導き出され、その例としてHEIF(ISO/IEC 23008−12)、MPEG−4ファイルフォーマット(ISO/IEC 14496−14)(「MP4フォーマット」としても知られている)、NALユニット構造化動画についてのファイルフォーマット(ISO/IEC 14496−15)、及び3GPPファイルフォーマット(3GPP TS 26.244)(「3GPフォーマット」としても知られている)が挙げられる。これらのフォーマットは、同じボックス構造化基本構造を使用する。
ISOベースメディアファイルフォーマット(ISO/IEC 14496−12)(「ISOBMFF」と略され得る)のいくつかの概念、構造、及び仕様は、コンテナファイルフォーマットの例として以下に記載され、それに基づいて、各種実施形態が実装され得る。本発明の諸態様は、ISOBMFFに限定されず、むしろ、説明は、1つの可能性のある基盤に対して与えられ、本発明はこれに基づいて、部分的に又は完全に実現され得る。
ISOベースメディアファイルフォーマット内の基本構築ブロックは、ボックスと呼ばれる。各ボックスは、ヘッダ及びペイロードを有する。ボックスヘッダは、ボックスのタイプ及びサイズ(バイト)を示す。あるボックスは、他のボックスを囲ってもよく、ISOファイルフォーマットは、特定のタイプのボックス内のどのボックスタイプが可能にされるかを規定する。更に、一部のボックスの存在は、各ファイルで必須であり得るが、一方、他のボックスの存在は、オプションであり得る。更に、一部のボックスタイプについて、ファイル内に複数のボックスを存在させることが許容可能であり得る。したがって、ISOベースメディアファイルフォーマットは、複数のボックスの階層構造を規定すると考えられ得る。
ファイルフォーマットのISOファミリーによると、1つのファイルは、ボックス内に組み込まれるメディアデータ及びメタデータを含む。各ボックスは、4文字コード(Four Character Code:4CC)によって識別され、ボックスのタイプ及びサイズに関して知らせるヘッダで始まる。
ISOベースメディアファイルフォーマットに従うファイルでは、メディアデータは、メディアデータ「mdat」ボックスで提供され得、ムービー「moov」ボックスは、メタデータを取り込むために使用され得る。いくつかの場合、動作可能であるファイルについて、「mdat」及び「moov」ボックスの両方が存在するように要求され得る。ムービー「moov」ボックスは、1つ以上のトラックを含み得、各トラックは、1つの対応するトラック「trak」ボックスにあり得る。トラックは、メディア圧縮フォーマット(及びISOベースメディアファイルフォーマットへのそのカプセル化)に従ってフォーマット化されたサンプルを指すメディアトラックを含む、多くのタイプのうちの1つであり得る。
ムービーフラグメントは、例えば、記録アプリケーションがクラッシュし、メモリスペースを使い切るか、又は他の何らかのインシデントが生じる場合にデータを失うのを回避するために、例えば、ISOファイルにコンテンツを記録するときに使用され得る。ムービーフラグメントがなければ、すべてのメタデータ、例えば、ムービーボックスがファイルの隣接する1つのエリアに書き込まれることをファイルフォーマットが要求し得るため、データ損失が生じ得る。更に、ファイルを記録するとき、利用可能なストレージのサイズについてムービーボックスをバッファリングするのに十分な量のメモリスペース(例えば、ランダムアクセスメモリRAM)がない場合があり、ムービーが閉じられるときのムービーボックスのコンテンツの再計算は、あまりにも遅い場合がある。更に、ムービーフラグメントは、正規のISOファイルパーサーを使用して、ファイルの同時の記録及び再生を可能にし得る。更に、より短い時間の初期バッファリングは、ムービーフラグメントが使用され、初期のムービーボックスが、同じメディアコンテンツを有するがムービーフラグメントなしで構造化されたファイルと比較してより小さいときに、プログレッシブダウンロード、例えば、ファイルの同時の受信及び再生のために必要とされ得る。
ムービーフラグメントの特徴によって、そうでなければムービーボックスにあり得るメタデータを複数のピースに分割することが可能となり得る。各ピースは、トラックの特定の期間に対応し得る。言い換えると、ムービーフラグメントの特徴によって、ファイルメタデータ及びメディアデータをインターリーブすることが可能となり得る。その結果、ムービーボックスのサイズが制限され、上述の使用ケースが実現され得る。
一部の例では、ムービーフラグメントについてのメディアサンプルは、moovボックスと同じファイルにある場合、mdatボックスにあり得る。しかしながら、ムービーフラグメントのメタデータについて、moofボックスが提供され得る。moofボックスは、以前はmoovボックスにあった特定の時間の再生時間についての情報を含み得る。moovボックスは、依然としてそれ自体、有効なムービーを表し得るが、更に、ムービーフラグメントが同じファイル内で続くことを示すmvexボックスを含み得る。ムービーフラグメントは、moovボックスに対応付けられる提示を時間的に拡張し得る。
ムービーフラグメント内で、トラックごとにゼロから複数まで任意の場所を含むトラックフラグメントのセットがあり得る。次いで、トラックフラグメントは、ゼロから複数のトラック実行まで任意の場所を含み得、そのドキュメントの各々は、そのトラックについてのサンプルの隣接する実行である。これらの構造内で、多くのフィールドは、オプションであり、デフォルトであり得る。moofボックスに含まれ得るメタデータは、moovボックスに含まれ得るメタデータのサブセットに限定され得、場合によって異なってコード化され得る。moofボックスに含まれ得るボックスに関する詳細は、ISOベースメディアファイルフォーマット仕様に規定され得る。独立型ムービーフラグメントは、ファイルオーダーで連続するmoofボックス及びmdatボックスからなるように定義され得る。ここで、mdatボックスは、(moofボックスがメタデータを提供する)ムービーフラグメントのサンプルを含み、他のムービーフラグメント(例えば、他のmoofボックス)のサンプルを含まない。
トラックを互いに対応付けるためにトラック参照メカニズムが使用され得る。トラック参照ボックスは、ボックス(複数可)を含み、その各々は、含有トラック(containing track)から他のトラックのセットへの参照を提供する。これらの参照は、含有されたボックス(複数可)のボックスタイプ(すなわち、ボックスの4文字コード)を介してラベル付けされる。シンタックスは、以下のように規定され得る。
aligned(8) class TrackReferenceBox extends Box('tref') {
TrackReferenceTypeBox [];
}
aligned(8) class TrackReferenceTypeBox (unsigned int(32) reference_type) extends Box(reference_type) {
unsigned int(32) track_IDs[];
}
track_IDsは、参照されるトラックのトラック識別子、又は参照されるトラックグループのtrack_group_id値を提供する整数のアレイとして規定され得る。track_IDs[i](iはtrack_IDs[]アレイについての有効なインデックスである)の各値は、含有トラックから、track_IDs[i]に等しいtrack_IDを有するトラック、又はtrack_IDs[i]に等しいtrack_group_id及び1に等しいトラックグループタイプボックスのフラグフィールドの特定のビット(例えば、最下位ビット)の両方を有するトラックグループへの参照を提供する整数である。track_group_id値が参照されるとき、トラック参照は、特定のトラック参照タイプのセマンティックで特に述べられない限り、参照されたトラックグループの各トラックに個々に適用される。値0は、存在することが許可されない場合がある。
トラックグルーピングメカニズムは、トラックのグループの標示を可能にする。ここで、各グループは、特定の特徴を共有するか、又はグループ内のトラックは、特定の関係を有する。トラックグループボックスは、トラックボックスに含まれ得る。トラックグループボックスは、トラックグループタイプボックスから導き出されるゼロ個以上のボックスを含む。特定の特徴又は関係は、含有されたボックスのボックスタイプによって示される。含有されたボックスは、トラックが同じトラックグループに属することを結論付けるために使用され得る識別子を含む。トラックグループボックス内の含有されたボックスの同じタイプを含み、これらの含有されたボックス内の同じ識別子値を有するトラックは、同じトラックグループに属する。
ISOベースメディアファイルフォーマットは、特定のサンプルに対応付けられ得る時間指定(timed)メタデータについての3つのメカニズム、すなわち、サンプルグループ、時間指定メタデータトラック、及びサンプル補助情報を含む。導き出された仕様は、これらの3つのメカニズムのうちの1つ以上による同様の機能を提供し得る。
AVCファイルフォーマット及びSVCファイルフォーマットなどのISOベースメディアファイルフォーマット及びその派生物におけるサンプルグルーピングは、グルーピング基準に基づいて、1つのサンプルグループのメンバーであるように、トラック内の各サンプルの割り当てと定義され得る。サンプルグルーピングにおけるサンプルグループは、隣接するサンプルであることに限定されず、隣接しないサンプルを含み得る。トラック内のサンプルについて複数のサンプルグルーピングがあり得るため、各サンプルグルーピングは、グルーピングのタイプを示すためにタイプフィールドを有し得る。サンプルグルーピングは、次の2つのリンクデータ構造によって表され得る。(1)サンプル−グループボックス(SampleToGroupBox:sbgpボックス)は、サンプルグループへのサンプルの割り当てを表し、(2)サンプルグループ記述ボックス(SampleGroupDescriptionBox:sgpdボックス)は、グループのプロパティを記載する各サンプルグループについてのサンプルグループエントリーを含む。異なるグルーピング基準に基づくサンプル−グループボックス及びサンプルグループ記述ボックスの複数のインスタンスがあり得る。これらは、グルーピングのタイプを示すために使用されたタイプフィールドによって区別され得る。サンプル−グループボックスは、例えば、グルーピングのサブタイプを示すために使用され得るgrouping_type_parameterフィールドを含み得る。
ISOベースメディアファイルフォーマット規格に対する修正ドラフトは、以下のようにコンパクトなサンプル−グループマッピングを説明する。
ボックスタイプ: 「csgp」
コンテナ: サンプルテーブルボックス又はトラックフラグメントボックス
必須: いいえ
量: ゼロ以上
コンパクトなサンプル−グループボックスは、特に、繰り返しパターンがある場合、及び特定のタイプのサンプルグループがほとんどないときに、サンプルからグループへのマッピングを表す、よりコンパクトな方法を提供する。
設計においては、つながったパターンのベクトルを使用し、そのパターンの各々は、その繰り返しにサンプルの実行を対応付けるマッピングアレイによって一度使用される。これは、以下の例によって示される。以下の各文字は、異なるサンプルグループ説明インデックス値(0かもしれない)を表す。
あるトラックが最初のサンプルから始まる以下の対応付けを有する場合、
a b c b a b c b a b c x x a b c b a b d b
これらの対応付けは、以下によって表され得る。
1.pattern_length=4、sample_count=11、
2.pattern_length=1、sample_count=2、
3.pattern_length=4、sample_count=6、
4.pattern_length=2、sample_count=2、

pattern=[
a b c b //長さ4のパターン1
x //長さ1のパターン2
a b c b //長さ4のパターン3
d b //長さ2のパターン4
] //したがって、pattern_lengthは、4+1+4+2=11である。
sample_count[i]がpattern_length[i]に等しいとき、パターンは繰り返されない。
sample_count[i]がpattern_length[i]よりも大きいとき、i番目のパターンのsample_group_description_index値は、sample_count[i]値をマッピングするために繰り返し使用される。必ずしもsample_count[i]がpattern_length[i]の倍数であるわけではなく、繰り返しは、パターンの途中で終わり得る。
1からpattern_countまでの範囲でiのすべての値についてのsample_count[i]値の合計が、合計のサンプルカウントよりも小さいとき、リーダー(reader)は、明示的なグループ対応付けを有しないサンプルを、(もしあれば)サンプル記述グループボックスで定義されるデフォルトグループと対応付け、そうでなければ、グループなしと対応付けるべきである。
sample_count[i]値の合計が、包含するトラックボックス又はトラックフラグメントボックスによって記載される実際のサンプルの合計のカウントよりも大きいのはエラーであり、よって、リーダー挙動は定義されない。
シンタックス
aligned(8) class CompactSampleToGroupBox
extends FullBox('csgp', version, 0)
{
unsigned int(32) grouping_type; unsigned int(1) index_msb_indicates_fragment_local_description;
unsigned int(1) grouping_type_parameter_present;
unsigned int(6) field_size_minus_1;
if (grouping_type_parameter_present == 1) {
unsigned int(32) grouping_type_parameter;
}
unsigned int(32) pattern_count;
totalPatternLength = 0;
for (i=1; i <= pattern_count; i++) {
unsigned int(32) pattern_length[i];
unsigned int(32) sample_count[i];
totalPatternLength += pattern_length[i];
}
for (j=1; j <= pattern_count; j++) {
for (k=1; k <= pattern_length[j]; k++) {
unsigned int(field_size) sample_group_description_index[j][k];
//そのmsbはfragment_local又はグローバルを示し得る
}
}
}
セマンティクス
versionは、このボックスのバージョンを規定する整数であり、現在0である。
grouping_typeは、サンプルグルーピングのタイプ(すなわち、サンプルグループを形成するために使用された基準)を識別し、それを、グルーピングタイプについての同じ値でそのサンプルグループ記述テーブルにリンクさせる、整数である。grouping_type(及び使用される場合、grouping_type_parameter)についての同じ値での「csgp」又は「sbgp」のいずれかの多くて1回の発生が、あるトラックについて存在する。
grouping_type_parameterは、グルーピングのサブタイプの標示である。
index_msb_indicates_fragment_local_descriptionは、このボックスが「trak」ボックス内で現れるときにゼロでなければならないが、このボックスが「traf」ボックス内で現れるときに0又は1であり得るフラグである。これが1であるとき、それは、すべてのsample_group_description_indexの最上位ビット(Most Significant Bit:MSB)がインデックス数の一部を形成しないことを示すが、代わりにグループ記述がどの「sgpd」ボックスで見出されるかを示す。MSBが0である場合、インデックスは、「trak」ボックスの「sgpd」ボックスからグループ記述を識別する。MSBが1である場合、インデックスは、「traf」ボックスの「sgpd」ボックスからグループ記述を識別する。
field_sizeは、sample_group_description_index値のアレイにおいてエントリーのビットでサイズを規定する整数である。それぞれ、4、8、16、32のフィールドサイズを示す、値3、7、15、又は31を取る。フィールドサイズ4が使用される場合、各バイトは、2つの値(entry[i]<<4 + entry[i+1])を含む。サイズが整数のバイトを満たさない場合、最後のバイトは、ゼロで詰められる。
pattern_countは、それに続くパターンアレイ内の対応付けられたパターンの長さを示す。含まれるsample_count値の合計は、マッピングされたサンプルの数を示す。
pattern_length[i]は、sample_group_description_index[j]値の第2のアレイ内のパターンに対応する。pattern_length[i]の各インスタンスは、0よりも大きい。
sample_count[i]は、i番目のパターンを使用するサンプルの数を規定する。sample_count[i]は、ゼロよりも大きく、sample_count[i]は、pattern_length[i]以上である。
sample_group_description_index[j][k]は、このグループ内のサンプルを記載するサンプルグループエントリーのインデックスを与える整数である。インデックスは、1から、サンプルグループ記述ボックス内のサンプルグループエントリーの数までの範囲であるか、又はこのサンプルがこのタイプのグループなしのメンバーであることを示す値0を取る。
説明及び実施形態では、コンパクトなサンプル−グループのボックスなどは、サンプル−グループのボックス(sample-to-group box)又はサンプル−グループボックス(SampleToGroupBox)が参照されるときに同等に使用され得る。
サブサンプルは、サンプルのバイトの隣接する範囲と定義され得る。サブサンプルに関する情報は、サンプルテーブルボックス及び/又はトラックフラグメントボックス(複数可)に含まれ得るサブサンプル情報ボックス(複数可)で与えられ得る。サブサンプルの特定の定義は、所与のコーディングシステム及び/もしくはコーディングシステムの所与のカプセル化フォーマット(例えば、特定のサンプルエントリータイプ)についてであり得、ならびに/又は含有サブサンプル情報ボックスのフラグフィールドを使用して更に規定され得る。例えば、HEVCについてのフラグフィールドの値は、サブサンプル情報ボックスによってアドレス指定されるサブサンプルがNALユニット、デコーディングユニット、タイル、コーディングツリーユニット列、スライス、又はコード化されたピクチャであることを示し得る。複数のサブサンプル情報ボックスが同じコンテナボックスに存在するとき、フラグの値は、これらのサブサンプル情報ボックスの各々で異なることが要求され得る。
サブサンプル情報ボックスのシンタックスは、以下のように規定され得る。
aligned(8) class SubSampleInformationBox
extends FullBox('subs', version, flags) {
unsigned int(32) entry_count;
int i,j;
for (i=0; i < entry_count; i++) {
unsigned int(32) sample_delta;
unsigned int(16) subsample_count;
if (subsample_count > 0) {
for (j=0; j < subsample_count; j++) {
if(version == 1)
{
unsigned int(32) subsample_size;
}
else
{
unsigned int(16) subsample_size;
}
unsigned int(8) subsample_priority;
unsigned int(8) discardable;
unsigned int(32) codec_specific_parameters;
}
}
}
}
サブサンプル情報ボックスのシンタックス要素のセマンティクスは、以下のように規定され得る。versionは、このボックスのバージョンを規定する整数である。entry_countは、後続のテーブル内のエントリーの数を示す整数である。sample_deltaは、サブサンプル構造を有するサンプルを示す整数であり、デコーディング順で、所望のサンプル数と以前のエントリーで示されるサンプル数との間の差としてコード化される。現在のエントリーがトラック内の最初のエントリーである場合、この値は、サブサンプル情報を有する最初のサンプルのサンプル数を示し、すなわち、値は、サンプル数とゼロ(0)との間の差である。現在のエントリーが、先行の空でないトラックフラグメントを有するトラックフラグメント内の最初のエントリーである場合、値は、サブサンプル情報を有する最初のサンプルのサンプル数と、以前のトラックフラグメント内の最後のサンプルのサンプル数との間の差を示す。現在のエントリーが、いかなる先行のトラックフラグメントもないトラックフラグメント内の最初のエントリーである場合、値は、サブサンプル情報を有する最初のサンプルのサンプル数を示し、すなわち、値は、サンプル数とゼロ(0)との間の差である。これは、トラック又はトラックフラグメント内の最初のサンプルを記述する最初のエントリーについてのsample_deltaが常に1であることを意味する。subsample_countは、現在のサンプルについてのサブサンプルの数を規定する整数である。サブサンプル構造がない場合、このフィールドは、値0を取る。subsample_sizeは、現在のサブサンプルのサイズ(バイト)を規定する整数である。subsample_priorityは、各サブサンプルについての低下優先度を規定する整数である。subsample_priorityのより高い値は、重要であるサブサンプルを示し、デコードされた品質においてより大きい影響を与える。0に等しいdiscardableは、サブサンプルが現在のサンプルをデコードすることを要求されることを意味し、一方、1に等しいことは、サブサンプルが現在のサンプルをデコードすることを要求されないが、拡張のために使用され得ることを示し、例えば、サブサンプルは、付加拡張情報(Supplemental Enhancement Information:SEI)で構成されている。codec_specific_parametersは、使用中のコーデック及び/又はそのカプセル化フォーマット(例えば、サンプルエントリータイプ)によって定義される。当該定義が利用可能でない場合、このフィールドは0に設定される。
HEIFは、画像及び画像シーケンス(動画など)の記憶のためのムービングピクチャエクスパーツグループ(MPEG)によって開発された規格である。HEIFは、他の画像ファイルフォーマットと比較して、特徴に関してHEIFを優れたものにする、広く使用されるISOベースメディアファイルフォーマット(ISOBMFF)の上で構築される豊富なセットの特徴を含む。本開示では、「HEIF」、「ISOBMFF」、及び「ファイルフォーマット」という用語は、交換可能に使用され得る。
ISOBMFF構造及び特徴は、広範囲でHEIFの設計において使用される。HEIFについての基本設計は、静止画像がアイテムとして記憶され、画像シーケンスがトラックとして記憶されることを含む。
HEIFのコンテキストでは、以下のボックスが、ルートレベル「meta」ボックス内に含まれ得、以下に説明されるように使用され得る。HEIFでは、「meta」ボックスのハンドラボックスのハンドラ値は「pict」である。(同じファイル内であろうと、URI(Uniform Resource Identifier)によって識別される外部ファイル内であろうと)コード化されたメディアデータを含むリソースは、データ情報(「dinf」)ボックスを介して解明され、一方、アイテムロケーション(「iloc」)ボックスは、参照されたファイル内のすべてのアイテムの位置及びサイズを記憶する。アイテム参照(「iref」)ボックスは、タイプによる(typed)参照を使用してアイテム間の関係を記録する。ある点で他のものと比較して最も重要であると考えられるアイテムの集合内でのアイテムがある場合、このアイテムは、プライマリアイテム(「pitm」)ボックスによってシグナリングされる。ここで言及されるボックスとは別に、「meta」ボックスはまた、アイテムを記述するのに必要であり得る他のボックスを含むようにフレキシブルである。
任意の数の画像アイテムが、同じファイルに含まれ得る。「meta」ボックスアプローチを使用することによって記憶される集合画像を考慮すると、画像間の特定の関係を適格とすることが時には必須である。当該関係の例としては、ある集合についてのカバー画像を示すことと、その集合における画像の一部又はすべてについてのサムネイル画像を提供することと、ある集合における画像の一部又はすべてをアルファ面などの補助画像と対応付けることが挙げられる。画像の集合内のカバー画像は、「pitm」ボックスを使用して示される。サムネイル画像又は補助画像は、タイプ「thmb」又は「auxl」のアイテム参照をそれぞれ使用してプライマリ画像アイテムとリンクされる。
アイテムプロパティボックスは、アイテムプロパティの順序集合との任意のアイテムの対応付けを可能にする。アイテムプロパティは、小さいデータ記録である。アイテムプロパティボックスは、アイテムプロパティの黙示的なインデックスリストを含むアイテムプロパティコンテナボックス、及びアイテムをアイテムプロパティと対応付ける1つ以上のアイテムプロパティアソシエーションボックスの2つの部分からなる。アイテムプロパティは、ボックスとしてフォーマット化される。
記述的なアイテムプロパティは、対応付けられたアイテムを変えるのではなく記述するアイテムプロパティと定義され得る。変形的なアイテムプロパティは、画像アイテムコンテンツの再構築された表示を変えるアイテムプロパティと定義され得る。
ニューラルネットワーク(Neural Network:NN)は、いくつかの層の計算で構成された計算グラフである。各層は、1つ以上のユニットで構成されており、ここで、各ユニットは、基本計算を実行する。ユニットは、1つ以上の他のユニットに接続されており、接続は、ウェイトを対応付け得る。ウェイトは、対応付けられた接続を通る信号のスケーリングのために使用され得る。ウェイトは、通常、学習可能パラメータ、すなわち、訓練データから学習され得る値である。ニューラルネットワークについての最も広く使用されるアーキテクチャは、フィードフォワード及びリカレントアーキテクチャの2つである。フィードフォワードニューラルネットワークは、フィードバックループがないものであり、各層は、前の層のうちの1つ以上から入力を取り、その出力を後の層のうちの1つ以上についての入力として提供する。また、特定の層内のユニットは、先行の層のうちの1つ以上におけるユニットから入力を取り、出力を次の層のうちの1つ以上に提供する。初期の層(入力データに近いもの)は、画像内のエッジ及びテクスチャなどの低レベルの特徴をセマンティックに抽出し、中間の層及び最終の層は、より高レベルの特徴を抽出する。特徴抽出層の後、分類、セマンティックセグメンテーション、物体検出、ノイズ除去、スタイル変換、超解像などの特定のタスクを実行する1つ以上の層があり得る。リカレントニューラルネットでは、フィードバックループがあり、その結果、ネットワークはステートフルになり、すなわち、情報又は状態を記憶することが可能である。
ニューラルネットワークは、携帯電話などの多くの異なるタイプのデバイスについての、ますます多くの用途で利用されている。この例としては、画像及び動画の分析及び処理、ソーシャルメディアデータ分析、デバイス使用データ分析などが挙げられる。
深層学習技術における特徴抽出器の例は、図2に示される畳み込みニューラルネットワーク(Convolutional Neural Network :CNN)に含まれる。CNNは、1つ以上の畳み込み層、全結合層、及びトップの分類層で構成されている。CNNは、他の深層ニューラルネットワークよりも訓練するのが容易であり、推定されるパラメータがより少ない。したがって、CNNは、特に、画像及びスピーチの用途において使用するのに非常に魅力的なアーキテクチャである。
図2の例では、CNNへの入力は、画像であるが、任意の他のデータが同様に使用され得る。CNNの各層は、特定の抽象(又はセマンティック)レベルを表し、CNNは、複数の特徴マップを抽出する。特徴マップは、例えば、抽出された特徴の値を表す実数の密行列を含み得る。図2におけるCNNは、単純化のために3つの特徴(又は抽象もしくはセマンティック)層C1、C2、C3のみを有するが、CNNは、4つ又は更に多い畳み込み層を有し得る。
CNNの第1の畳み込み層C1は、第1の層から(すなわち、入力画像から)4つの特徴マップを抽出することを含み得る。これらのマップは、エッジ及びコーナーなどの、入力画像において見出される低レベルの特徴を表し得る。CNNの第2の畳み込み層C2は、その前の層からの6つの特徴マップの抽出で構成され、抽出された特徴のセマンティックレベルを増加させる。同様に、第3の畳み込み層C3は、エッジ及びコーナーの組合せ、形状などの、画像において見出されるより抽象概念を表し得る。CNNの最後の層は、全結合多層パーセプトロン(Multi-Layer Perceptron:MLP)と称され、1つ以上の全結合(すなわち、密)層及び最終の分類層を含み得る。MLPは、例えば、物体クラスを予測(認識)するために、最後の畳み込み層からの特徴マップを使用する。例えば、MLPは、画像内の物体が家であることを予測し得る。
ニューラルネットワークの目的は、入力データをより有用な出力に変換することである。一例は分類であり、ここで、入力データはN個の可能性のあるクラスのうちの1つに分類される(例えば、ある画像が猫又は犬を含むかを分類する)。別の例は回帰であり、ここで、入力データは実数に変換される(例えば、歌のミュージックビートを決定する)。
本説明では、「モデル」及び「ニューラルネットワーク」という用語は、交換可能に使用される。更に、「ニューラルネットワークのウェイト」は、時には、「学習可能パラメータ」又は「パラメータ」と称される。
人工知能(AI)は、ニューラルネットワーク及び機械学習を含む一般的な用語である。コンピュータビジョン、イメージング、ビッグデータ、及び/又はビジュアル分析などの異なるマーケットセグメントに機械学習ベースのサービスを提供するクラウドベースのAIサービスがある。更に、既に市販のスマートフォンの一部にニューラル処理ユニットが搭載されているが、この数は数年以内に著しく増加するものと見込まれる。
ニューラルネットワークの最も重要な用途のうちの1つは、画像/動画分析及び操作にある。画像及び/又は画像シーケンスは、リアルタイム又はバッチモードのいずれかで、携帯電話において異なる機械学習ベースのアルゴリズムで処理される。この処理では、ほとんどの時間において、オリジナル画像ファイルと異なるファイルとして記憶される追加のメタデータを生成する。これについての1つの理由としては、JPEG(Joint Photographic Experts Group)、PNG(Portable Network Graphics)、TIFF(Tagged Image File Format)などの現在の画像フォーマットの制限、及びメディアファイルに当該アルゴリズムの結果を記憶するための標準メカニズムの欠如が挙げられる。HEIFは、メタデータがファイルの外側にあるのではなく、処理チェーンにおける画像/動画消費の一部になるように構造化された方法で当該情報を含むのに必要な拡張可能性を提供する。
AIベースのメディア処理パイプラインは、メディアデータを操作して結果を「ベイクイン」する(例えば、画像の曝露を変更し、ピクセル値を書き換えることによって)か、又はAIアルゴリズムの推測された結果(例えば、顔検出アルゴリズムの結果として検出される顔の境界ボックス)を表す追加のメタデータファイルを生成する。更に、AIアルゴリズム間に特定の依存関係があり得る。一例は、システムがまず顔を検出し、次いで、特有の名前又はIDを検出された顔に付与するために、検出された顔の境界ボックスにおいて人認識アルゴリズムを適用することであり得る。このようなカスケーディング動作は、特に、複数のベンダーからの複数のシステムが一緒に動作する必要があるときに、現在、相互に動作可能でない、所有者のインターフェース及びアプリケーションプログラミングインターフェース(Application Programming Interface:API)を要する。
更に、メディアデータに関連する当該AIメタデータを記憶及びシグナリングするためのメカニズムはない。HEIFなどのMPEGの現在のISOベースのメディアファイルフォーマット及び派生物、又はISOベースメディアファイルフォーマットと互換性のある他のフォーマットは、以下についてのいかなる標準化メカニズムも有しない。
1.画像、画像シーケンス、又は動画についてのAI及び機械学習アルゴリズムインターフェース結果の記憶
2.特定の動作を実行する(例えば、複数の顔を検出し、次いで、別々のプロセスとして複数の顔を認識し、それらの関連メタデータを記憶する)ために次々に実行しなければならないカスケードプロセスに関する情報の記憶
3.任意の他のエンティティが、アルゴリズム(又はアルゴリズムの新しいバージョン)を再実行し、次いで、メディアファイル内の関連メタデータを更新し得るように利用されるアルゴリズムに関する情報の記憶
4.データが、結果を利用する他者によって適切に解析され得るように、適用されたAIベースのアルゴリズムの結果として記憶されるデータのフォーマットに関する情報の記憶
上述の記憶及びシグナリングメカニズムの欠如は、AIベースのメディア操作サービス及びアルゴリズムの使用及び相互動作可能性を制限し得る。そのようなAIベースのアルゴリズムを記憶、交換、操作、及びフィードフォワードするための標準的かつ明確に定義されたメカニズムが欠如していると、現在の業界における問題のいずれかにつながるおそれがあり、エコシステム及び所有者のフォーマット定義が隔離され閉じられたものになる。
レプリゼンテーショナルステートトランスファーAPI(Representational State Transfer Application Programming Interface:REST API)ベースのビジュアルAIベースの画像及び動画処理サービスを有する既知のクラウドベースのサービスは統合されず、それらは、マルチアルゴリズム動作のカスケーディング及びフィードフォワードタイプではなく、単一の動作に隔離されている。
本実施形態の目的は、ビジュアルAIメタデータについての記憶及び相互動作可能な能力を有するように利用され得る、(特にHEIFについての)ISOベースのメディアファイルフォーマット及び他のメディアファイルフォーマットについて記憶及びシグナリングメカニズムを定義することである。当該メカニズムを提供することによって、本発明は、相互に動作可能で標準の方法でアルゴリズムの記憶、シグナリング、非破壊編集、及びカスケーディングを可能にする。
本実施形態は、例えば、以下のビジュアルAIメタデータ及びプロセスで適用可能である。
・物体検出
・顔検出及び認識
・人の感情
・性別及び年齢予測
・顔ランドマーク分析
・顔ポーズ検出
・光学文字認識(Optical Character Recognition:OCR)(HEIFでの正確なテキスト及び保存)
・不適切なコンテンツ分析(オートコンテンツフィルタ)
・コンテキスト検出
・コンテキストベースの物体及びセマンティック解析(例えば、ウェディング、ディナー、誕生日、パーティ、スポーツなど)
・動作認識
・ロゴ及び製品検出
・一般的な画像属性(色、光、雰囲気など)
・シーンセマンティック解析
・画像キャプショニング
・セグメンテーション及びアルファマスク
・デプスマップ
・非破壊画像操作(例えば、スタイル変換、アルファマスキング及び画像ブレンディング、「レンズ」、フィルタ、...)
前述のように、本実施形態は、標準的及び効率的な方法で、ISOBMFF準拠ファイルフォーマットでAIメタデータの記憶及びシグナリングを可能にする。それを達成するために、以下のファイルフォーマットボックス(すなわち、コンピュータ可読オブジェクト指向構築ブロック)及び関係が、ISOベースメディアファイルフォーマット準拠アプローチでAI関連メタデータを記憶及びシグナリングするために定義される。
1.AIベースのアルゴリズムに関する記述的メタデータを含む、新しいプロパティボックス
2.AIベースのアルゴリズムメタデータ出力を記憶する新しいボックス。このボックスは、一般的なペイロード定義を有し得るため、任意のAIアルゴリズム出力に準拠する。追加のサービス及びスキーム情報が、アルゴリズム出力のセマンティック及びシンタックス情報を提供する。
3.定義されたデータフローで実行する複数のアルゴリズムで構成されたAIプロセスに関する情報を含む新しいボックス。
4.時間的に変化する方法でAIベースのアルゴリズム出力メタデータを含む、時間指定メタデータトラックについての新しいメディアサンプル定義。
5.上述の新しいボックスを、ISOベースのメディアファイルフォーマットの他の情報搬送エンティティに関連付けるための関係定義。
本実施形態について、データ搬送メカニズムは、データシンタックスから分離され得る。同時に、AI特有データを生成するために利用されるAIサービスへのポインタが示され得る。これらを達成するために、AIプロパティは、以下のシンタックス要素を含み得る。
1.サービス定義インジケータ
2.サービスのどのバージョンがAIデータを生成するために利用されるかを示すサービスバージョン
3.AIサービスに関する更なる詳細を提供するサービス記述
4.記憶されたAIデータを解析するためにシンタックス定義を提供するサービススキーマロケーション。このスキーマは、AIデータについての一般的なコンテナを有するのに必要なフレキシビリティを提供する。
5.AIデータを搬送するための一般的なデータ構造。
6.異なるAIプロセス間で入力/出力依存性を関連付けるための一般的なメカニズム。例えば、顔認識AIプロセスは、画像内の顔に境界ボックスを提供するために、まず顔検出器に依存する。
7.利用されたニューラルネットワークモデルを記憶するか、又は指し示すための一般的なメカニズム。
本実施形態は、以下の方法に従って上記で表されるシンタックス要素について新しいアイテムプロパティ又は新しいボックスを定義する。
アイテム5:
アイテム5は、AIデータを搬送するための一般的なデータ構造に関する。これは、VAIデータボックスと呼ばれる新しいボックスを定義することによって実施され得る。このボックスは、アイテムプロパティコンテナボックス、又はメタボックスもしくはメディアボックス内の任意の他の場所に記憶され得る。
VAIデータボックスのシンタックス定義は、以下のとおりである。
aligned(8) class VAIDataBox
extends FullBox('vaid', version = 0, flags = 0) {
unsigned int(8)vai_data[];
}
vai_dataは、不透明なデータであり、その形式は、存在する場合、schema_locationでリストされるスキーマ、又はサービスによって定義される。
VAIデータボックスの使用の代わりに、含有構造で直接vai_data[]アレイを含む(例えば、vai_data[]は、以下の実施形態におけるVAIIプロパティで直接含まれ得る)。
アイテム1、2、3、及び4:
アイテム1、2、3、及び4は、サービス定義インジケータ、サービスバージョン、サービス記述、及びサービススキーマロケーションに関する。これらについて、新しいアイテムプロパティが定義され得る。当該定義は、以下のとおりであり得る。
aligned(8) class VAIIProperty
extends ItemFullProperty('vaii', version = 0, flags = 0)
{
string service;
string service_version; // オプション
string service_description; // オプション
string schema_location; // オプション
VAIDataBox();
}
serviceは、VAIデータボックスのvai_dataを生成したサービスを識別するために使用された、例えば、UTF−8文字を使用するヌル終端文字列としてのURL又はURNエントリーであり得る。
service_versionは、UTF−8文字を使用するヌル終端文字列によって定義されるサービスのバージョンであり、空のヌル終端文字列であり得る。
service_descriptionは、VAIデータボックスを生成した、サービスの人間可読記述を含むヌル終端文字列であり、空のヌル終端文字列であり得る。
schema_locationは、VAIデータボックスのデータが従うスキーマについての0個以上のURLのUTF−8文字における空間分離リストで構成されたヌル終端文字列であり、空のヌル終端文字列であり得る。
上記で使用されるデータタイプは例であり、実施形態は、他のデータタイプでも同様に実現され得ることが理解される必要がある。例えば、サービスを識別するためにURIを使用する代わりに、UUID又は登録されたタイプ値(例えば、4文字コード)が識別子として使用され得る。別の例では、service_versionは、符号なし整数値又は符号なし整数値のシーケンス(例えば、メジャーバージョン及びマイナーバージョン)として規定され得る。
実施形態は、上述の1つ以上の要素(service、service_version、service_description、schema_location、VAIデータボックス)などの任意のセットに適用されるが、それに限定されないことが理解される必要がある。
アイテム6:
アイテム6は、異なるAIプロセス間で入力/出力依存性を関連付けるための一般的なメカニズムに関する。これについて、アイテムプロパティリレーションボックスと呼ばれる新しいボックスが、プロパティの入力/出力関係を記憶するために定義され得る。このボックスは、アイテムプロパティボックス(「iprp」)は、メタボックス内の任意の他のボックス内であり得る。
アイテムプロパティリレーションボックスについてのシンタックス定義は、以下のとおりである。
aligned(8) class ItemPropertyRelationBox
extends FullBox('iprl', version = 0, flags = 0) {
unsigned int (8) input_count;
for (i=0; i<input_count; i++) {
unsigned int(16) property_index;
}
unsigned int (8) output_count;
for (i=0; i< output_count; i++) {
unsigned int(16) property_index;
}
}
input_countは、このプロセスが取り込んだ入力プロパティの数(1からn)である。
output_countは、このプロセスが生成した出力プロパティの数(1からn)である。
property_indexは、このプロセスの入力又は出力のいずれかによって使用される同じアイテムプロパティボックスに含まれるアイテムプロパティコンテナボックスにおけるプロパティの1ベースのインデックスである。
実施形態では、ボックス「アイテムプロパティリレーションボックス」は、以下のようにアイテムプロパティアソシエーションの新しいバージョン内にあり得る。
aligned(8) class ItemPropertyAssociationBox
extends FullBox('ipma', version, flags)
{
unsigned int(32) entry_count;
for (i = 0; i < entry_count; i++) {
if (version < 1)
unsigned int(16) item_ID;
else
unsigned int(32) item_ID;
unsigned int(8) association_count;
for (i=0; i<association_count; i++) {
bit(1) essential;
if (flags & 1)
unsigned int(15) property_index;
else
unsigned int(7) property_index;
}
If (flags & 2)
ItemPropertyRelationBox relation;
}
}
relationは、リストされたitem_IDについてのプロパティ入力/出力関係を定義する。
別の実施形態では、アイテムプロパティ関係は、例えば以下のように、アイテムプロパティアソシエーションボックスの終わりに追加され得る。この実施形態は、従来のパーサーとより互換性があり得る。
aligned(8) class ItemPropertyAssociationBox
extends FullBox('ipma', version, flags)
{
unsigned int(32) entry_count;
for (i = 0; i < entry_count; i++) {
if (version < 1)
unsigned int(16) item_ID;
else
unsigned int(32) item_ID;
unsigned int(8) association_count;
for (i=0; i<association_count; i++) {
bit(1) essential;
if (flags & 1)
unsigned int(15) property_index;
else
unsigned int(7) property_index;
}
}
if (flags & 2) {
unsigned int[16] relation_count;
ItemPropertyRelationBox
relation[relation_count];
}
}
一実施形態によると、アイテムプロパティリレーションボックスは、上記に代わって、データ構造(すなわち、ボックスヘッダなし)であり得る。
AIペイロードデータは、メタボックス又はメディアデータ(mdat)ボックス内に記憶され得る。
1.AIペイロードデータは、図3に示されるように、AIプロパティと密に連動して記憶及びシグナリングされるか、又は
2.AIペイロードデータは、図4に示されるように、アイテムとして記憶及びシグナリングされる。
AIペイロードが、AIプロパティと密に連動して記憶及びシグナリングされるとき、VAIIプロパティボックスは、VAIデータボックスを含み得る。この例では、AIプロパティは、関連AIペイロードデータを含む。図3は、当該記憶メカニズムを有するHEIFメディアファイル300を示す。メディアファイル300は、メディアデータ、すなわち、画像メディアデータを搬送するための「mdat」ボックスを含む。更に、メディアファイル300は、すべての関連AIメタデータ及びAIペイロードデータを搬送するための「meta」ボックスを含む。したがって、メタデータの修正は、メディアデータオフセットにおいて最小の効果を有し得、それは、再編集の使用ケースで望ましい場合がある。
AIペイロードがアイテムとして記憶及びシグナリングされるとき、AIペイロードは、メタ又はメディアデータボックスでアイテムとして記憶され得る。この例では、AIプロパティは、メタデータ(例えば、AIペイロードを生成するために使用されたサービスについてのURI)を含むが、AIペイロードを含まない。図4は、HEIFファイル400内で当該記憶がどのように見えるかを示す。
図4に示され得るように、AIペイロード410は、「meta」ボックス内の「item」によって表される不透明なデータとして「mdat」ボックスに記憶され得る。一実施形態では、「meta」ボックス415内の「idat」ボックス420を使用することによって同じ表示が行われ得、不透明なデータとしてのAIペイロードの記憶は、「meta」ボックス415内で達成され得る。そのような場合、アイテムロケーションボックス(「iloc」)430で示されるようなAIアイテムのconstruction_methodは、1に設定され、それは、idat_offsetに対応する。「mdat」操作が煩雑であるか、又は望ましくない場合に、これが望ましい場合がある。
このオプションでは、アイテムプロパティリレーションボックスによって以前に表されたAIプロセスは、アイテム参照メカニズムによって(「iref」ボックスを利用することによって)特定のアイテム参照タイプ(「vai」である場合がある)に置き換えられ得る。アイテム参照ボックスは、HEIF仕様(ISO/IEC 23008−12)で以下のように定義される。
aligned(8) class SingleItemTypeReferenceBox(referenceType) extends Box(referenceType) {
unsigned int(16) from_item_ID;
unsigned int(16) reference_count;
for (j=0; j<reference_count; j++) {
unsigned int(16) to_item_ID;
}
}
aligned(8) class SingleItemTypeReferenceBoxLarge(referenceType) extends Box(referenceType) {
unsigned int(32) from_item_ID;
unsigned int(16) reference_count;
for (j=0; j<reference_count; j++) {
unsigned int(32) to_item_ID;
}
}
aligned(8) class ItemReferenceBox extends FullBox('iref', version, 0) {
if (version==0) {
SingleItemTypeReferenceBox references[];
} else if (version==1) {
SingleItemTypeReferenceBoxLarge references[];
}
}
一実施形態によると、「vai」と呼ばれる新しいアイテム参照タイプが定義され得る。この参照タイプでは、from_item_IDは、AIペイロードを含むアイテムを表し得、to_item_IDは、AI結果を生成するための入力としてそれを使用し得るAIアイテムIDを参照し得る。
一実施形態によると、参照は、from_item_IDがto_item_IDでリストされるアイテムから入力を要求するAIアイテムを表す、「依存」関係であり得る。
アイテム7:
アイテム7は、利用されたニューラルネットワークモデルを記憶するか、又は指し示すための一般的なメカニズムに関する。これは、NNプロパティと呼ばれ得る新しいプロパティによって、及びこのプロパティボックスに適用されたニューラル情報を記憶することによって実施され得る。このプロパティのシンタックスは、以下のとおりであり得る。
aligned(8) class NNProperty
extends ItemFullProperty('nnpr', version = 0, flags = 0) {
string nn_description;
string nn_representation;
string nn_URL;
NNModelBox();
}
nn_descriptionは、ニューラルネットワークモード(例えば、「Yolo検出器」)のテキストの記述である。
nn_representationは、ニューラルネットワークの(NN)表示詳細を含む、テキスト又は列挙され十分にフォーマット化された文字列フィールドである。可能性のある値は、[「raw」、「onnx」、「h5」、「meta」、「zip」など]であり得るが、これらに限定されない。このフィールドは、ニューラルネットワークの表示フォーマットに関する情報を提供する。このフィールドを確認することによって、NNユーザは、どのデコンプレッサ又はフォーマットリーダーを、記憶された又は指し示されたニューラルネットワークモデルにおいて使用しなければならないかを知り得る。
nn_URLは、ポインタをニューラルネットワークモデルに提供し得るURI又はURLである。nn_URLがヌルであるとき、NNモデルボックスは、存在しなければならず、ニューラルネットワークを含むことが予期される。
ニューラルネットワークデータモデルは、以下のようにNNモデルボックスに記憶され得る。
aligned(8) class NNModelBox
extends FullBox('nnmb', version = 0, flags = 0) {
unsigned int(8)nn_model_data[];
}
nn_model_dataは、ニューラルネットワークの表示を含む不透明なデータアレイである。
別の実施形態によると、NNモデルデータは、HEIFにおける別のアイテムであり得る。このシナリオでは、ニューラルネットワークモデルデータは、コンテンツクリエータの好みに基づいて、メディアボックス又は「meta」ボックス内の「idat」ボックスに記憶され得る。当該シナリオでは、NNモデルアイテムは、タイプ「nnrf」のアイテム参照で画像アイテムにリンクし得る。この4文字コードは一例であり、別のこのようなコードが使用され得る。
別の実施形態によると、NNモデルボックスなし、又はありのNNプロパティが、ニューラルネットワークモデルアイテムに付加され得る。
時間指定メタデータトラックにおけるAIメタデータの記憶:
AIメタデータが、画像シーケンスのサンプル又はビデオトラックのサンプルに属する場合、AIメタデータは、時間指定メタデータトラックのサンプルとして記憶され得る。サンプルは、不透明なデータ又はデータブロブとして記憶され得る。メタデータサンプルについてのサンプル記述は、以下のように定義され得る。
class AIMetaDataSampleEntry() extends MetaDataSampleEntry('aise') {
AIInfoBox(); // オプションで存在し得る
Box[] other_boxes; // オプション
}
AI情報ボックスは、先に定義されたVAIIプロパティボックスと同じ構造を有し得る。
各AIメタデータサンプルは、異なるAIアルゴリズム又はサービス結果を含み得、ここで、各サービスは、別々のAIメタデータサンプルエントリーで定義され、サンプル−チャンクボックス(SampleToChunkBox)内のsample_description_indexフィールドを介してサンプルに割り当てられ得る。
一実施形態によると、利用されたニューラルネットワークモデル及び関連情報は、メタボックスに記憶され、エンティティ−グループボックス(EntitytoGroup box)を介してメディアトラックに関連付けられた状態になり得る。
AIベースのアルゴリズムの出力としてもたらされたプレ導出コード化画像についてのメタデータ
以下で記載される実施形態は、AIベースのアルゴリズムの出力によって、修正されたある画像が、次いでコード化され、HEIFファイルに記憶された場合に適用可能である。
プレ導出画像プロパティは、プレ導出コード化画像を生成するために、参照された画像アイテムにおいて適用された導出動作のタイプを示す。この記述的アイテムプロパティは、プレ導出コード化画像に適用可能である。プレ導出画像プロパティは、対応付けられたプレ導出コード化画像のすべての「base」参照画像アイテムが、プレ導出コード化画像を生成するためにプレ導出プロパティでリストされるすべての導出動作で利用されたことを示す。
一実施形態によると、プレ導出アイテムプロパティのシンタックスは、プレ導出で使用されたアルゴリズム(複数可)に関連するメタデータを含むように、以下のように追加される。
aligned aligned(8) class PreDerivationProperty
extends ItemFullProperty('prdp', version = 0, flags = 0) {
unsigned int(8) entry_count;
for (i = 0; i < entry_count; i++) {
unsigned int(32) pre_derivation_4cc;
}
string service; // オプション
string service_version; // オプション
string service_description; // オプション
string schema_location; // オプション
VAIDataBox();
}
service、service_version、service_description、schema_location、及びVAIDataBox()のセマンティクスは、上記のように規定され得るか、又はAIベースのアルゴリズムだけではなく任意のプレ導出動作に適用されるために一般化され得る。
「vai」などのpre_derivation_4ccの新しい値は、AIアルゴリズムに基づいてプレ導出を示すように定義され得る。あるいは、「srvc」などのpre_derivation_4ccの新しい値は、示されたサービスに基づいてプレ導出を示すように定義され得る。
pre_derivation_4ccが新しいタイプ(例えば、「vai」又は「srvc」)に等しいときに、service、service_version、service_description、schema_location、及びVAIDataBox()が存在することが要求され得る。別のアプローチでは、pre_derivation_4ccが新しいタイプに等しいときにのみ、service、service_version、service_description、schema_location、及びVAIDataBox()が条件付きで存在するように、シンタックスが変更される。
entry_countは、任意のデータがpre_derivation_4cc値のループに従うときに1に等しいことが要求され得る。その結果、サービス関連シンタックス要素がどのプレ導出動作を記載するかが明白になる。
図5は、インテリジェントコンテンツについてのメディアフォーマットとしてのHEIFの例を示す。ビジュアルコンテンツ、この例では画像は、撮影デバイス510、例えばスマートフォンによって撮影される。この画像は、HEIFコンテナに記憶され、ビジュアルAI処理515のために、クラウドサービスか、又は撮影デバイスのAI処理ユニットのいずれかに提供される。最初に、ビジュアルコンテンツのコンテキストが、AI処理520で検出される。この例では、コンテキストは、「パーティ」、「誕生日」、「子どもたち」、「楽しい時間」、...のキーワードで定義され得る。コンテキストデータは、メタデータとしてHEIFコンテナに記憶される。コンテキスト検出の後、画像は処理525されて、物体(例えば、「ケーキ」、「キャンディ」、「マフィン」、「キャンドル」、...)及び顔を検出する。顔及び物体についてのデータもまた、メタデータとしてHEIFコンテナに記憶される。
実施形態に係るAIアルゴリズムのプロセスを、図6を参照してより詳細に説明する。図6に示されるように、プロセスは、例えば、HEIF形式の画像データを受信することによって開始する。最初に、画像プロパティが検出され、その後、コンテキスト、物体、及び顔が検出される。次いで、可能な場合、顔が認識、すなわち、識別される。認識されているそのような人々は、セグメント化される。デプスマップが生成され得、それに基づいて、ボケ効果が、認識された人々について生成され得る。AIアルゴリズムの結果、すなわち、すべての検出/生成されたデータは、メタデータとしてHEIFファイルに保存され、出力される。ここで出力されているHEIFコンテナは、画像ファイルだけでなく、AI処理アルゴリズムから生じた画像の識別されたコンテンツを定義するメタデータも含む。
図7は、実施形態に係る方法を示すフローチャートである。方法は、コンテナファイルフォーマットでビジュアルデータを受信すること710と、1つ以上のコンテンツ要素を検出するためにビジュアルデータを処理すること720と、検出された1つ以上のコンテンツ要素、及び上記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶すること730と、ビジュアルデータに対応付けてコンテナファイルにメタデータを含めること740と、を含む。一実施形態によると、ビジュアルデータは、1つ以上のニューラルネットワークによって処理され得る。あるいは、非ニューラルネットワークベースのアルゴリズムが代わりに、1つ以上のコンテンツ要素を検出するために使用され得る。
実施形態に係る装置は、コンテナファイルフォーマットでビジュアルデータを受信する手段と、1つ以上のコンテンツ要素を検出するためにビジュアルデータを処理する手段と、検出された1つ以上のコンテンツ要素、及び上記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶する手段と、ビジュアルデータに対応付けてコンテナファイルにメタデータを含める手段と、を備える。前記手段は、少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を備え、プロセッサは、プロセッサ回路を更に備え得る。メモリ及びコンピュータプログラムコードは、少なくとも1つのプロセッサによって、様々な実施形態に係る図7の方法を装置に実行させるように構成されている。
様々な実施形態は、メモリ内にあり、かつ関連装置に前記方法を実行させるコンピュータプログラムコードを利用して実施され得る。例えば、デバイスが、データを処理、受信、及び送信するための回路及び電子機器と、メモリ内のコンピュータプログラムコードと、コンピュータプログラムコードを実行しているときに、デバイスに一実施形態の特徴を実行させるプロセッサと、を備え得る。また更に、サーバのようなネットワークデバイスが、データを処理、受信、及び送信するための回路及び電子機器と、メモリ内のコンピュータプログラムコードと、コンピュータプログラムコードを実行しているときに、ネットワークデバイスに一実施形態の特徴を実行させるプロセッサと、を備え得る。コンピュータプログラムコードは、1つ以上の動作特性を含む。上記動作特性は、上記プロセッサのタイプに基づいて上記コンピュータによって構成を介して定義されており、システムがバスによって上記プロセッサに接続可能であり、システムのプログラム可能な動作特性は、コンテナファイルフォーマットでビジュアルデータを受信することと、1つ以上のコンテンツ要素を検出するためにビジュアルデータを処理することと、検出された1つ以上のコンテンツ要素、及び上記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶することと、ビジュアルデータに対応付けてコンテナファイルにメタデータを含めることと、を含む。
必要があれば、本明細書で説明された異なる機能が、異なる順序及び/又は他と同時に実行され得る。更に、必要があれば、上述の機能及び実施形態のうちの1つ以上は、オプションであってもよく、又は組み合わされてもよい。
実施形態の様々な態様は、独立請求項で述べられているが、他の態様は、請求項で明示的に述べられる組合せのみではなく、記載された実施形態及び/又は独立請求項の特徴を有する従属請求項からの特徴の他の組合せを含む。
上記は、例示的な実施形態を記載しているが、これらの説明は、限定する意味で考えられるべきでないことも本明細書で留意されたい。むしろ、いくつかの変形及び修正があり、それは、添付の請求項で定義される本開示の範囲から逸脱することなく行われ得る。

Claims (15)

  1. コンテナファイルフォーマットでビジュアルデータを受信することと、
    1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理することと、
    前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶することと、
    前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含めることと、
    を含む、方法。
  2. 前記コンテナファイルは、処理アルゴリズムについてのメタデータを含む第1のボックスを含む、請求項1に記載の方法。
  3. 前記コンテナファイルは、前記1つ以上のコンテンツ要素についてのメタデータを含む第2のボックスを含む、請求項1又は2に記載の方法。
  4. 前記コンテナファイルは、複数の処理アルゴリズムのプロセスについてのメタデータを含む第3のボックスを含む、請求項1から3のいずれかに記載の方法。
  5. 前記コンテナファイルは画像シーケンス又は動画であり、
    前記コンテナファイルは、前記メタデータを含むメディアトラックについてのメディアサンプル定義を含む、請求項1から4のいずれかに記載の方法。
  6. 前記コンテナファイルは、前記コンテナファイル内の情報を搬送する他のエンティティにコンテナを関連付けるための関係定義を含む、請求項1から5のいずれかに記載の方法。
  7. 前記ビジュアルデータは、前記1つ以上のコンテンツ要素を検出するために、1つ以上のニューラルネットワーク又は1つ以上の非ニューラルネットワークベースのアルゴリズムによって処理される、請求項1から6のいずれかに記載の方法。
  8. コンテナファイルフォーマットでビジュアルデータを受信する手段と、
    1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理する手段と、
    前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶する手段と、
    前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含める手段と、
    を備える、装置。
  9. 前記コンテナファイルは、処理アルゴリズムについてのメタデータを含む第1のボックスを含む、請求項8に記載の装置。
  10. 前記コンテナファイルは、前記1つ以上のコンテンツ要素についてのメタデータを含む第2のボックスを含む、請求項8又は9に記載の装置。
  11. 前記コンテナファイルは、複数の処理アルゴリズムのプロセスについてのメタデータを含む第3のボックスを含む、請求項8から10のいずれかに記載の装置。
  12. 前記コンテナファイルは、画像シーケンス又は動画であり、
    前記コンテナファイルは、前記メタデータを含むメディアトラックについてのメディアサンプル定義を含む、
    請求項8から11のいずれかに記載の装置。
  13. 前記コンテナファイルは、前記コンテナファイル内の情報を搬送する他のエンティティにコンテナを関連付けるための関係定義を含む、請求項8から12のいずれかに記載の装置。
  14. 前記1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理するために、1つ以上のニューラルネットワーク又は1つ以上の非ニューラルネットワークベースのアルゴリズムを更に含む、請求項8から13のいずれかに記載の装置。
  15. 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を更に備える、請求項8から14のいずれかに記載の装置。
JP2021514414A 2018-09-20 2019-09-13 人工知能についての装置及び方法 Pending JP2022501891A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
FI20185781 2018-09-20
FI20185781 2018-09-20
PCT/FI2019/050658 WO2020058570A1 (en) 2018-09-20 2019-09-13 An apparatus and a method for artificial intelligence

Publications (1)

Publication Number Publication Date
JP2022501891A true JP2022501891A (ja) 2022-01-06

Family

ID=69888410

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021514414A Pending JP2022501891A (ja) 2018-09-20 2019-09-13 人工知能についての装置及び方法

Country Status (6)

Country Link
US (1) US11442985B2 (ja)
EP (1) EP3854105A4 (ja)
JP (1) JP2022501891A (ja)
KR (1) KR102434374B1 (ja)
CN (1) CN112740715B (ja)
WO (1) WO2020058570A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004449A1 (ja) * 2022-06-29 2024-01-04 キヤノン株式会社 情報処理装置、情報処理方法、コンピュータプログラム

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111294512A (zh) * 2020-02-10 2020-06-16 深圳市铂岩科技有限公司 图像处理方法、装置、存储介质及摄像装置
JP7471135B2 (ja) 2020-04-22 2024-04-19 株式会社日立製作所 学習モデル生成システムおよび学習モデル生成方法
US20240022787A1 (en) * 2020-10-13 2024-01-18 Nokia Technologies Oy Carriage and signaling of neural network representations
WO2022220207A1 (ja) * 2021-04-13 2022-10-20 ソニーグループ株式会社 情報処理装置および方法
KR102588266B1 (ko) * 2021-06-21 2023-10-13 한국전자통신연구원 로봇과 인공지능 서비스 간의 자동화 통신 장치 및 이를 이용한 방법
CN116137596A (zh) * 2021-11-16 2023-05-19 维沃移动通信有限公司 Ai信息的传输方法和设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060622A (ja) * 2006-08-29 2008-03-13 Sony Corp 映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造
JP2012509522A (ja) * 2008-11-19 2012-04-19 イーストマン コダック カンパニー 事象毎に意味論的に分類する方法
US20140178043A1 (en) * 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
WO2015093330A1 (ja) * 2013-12-17 2015-06-25 シャープ株式会社 認識データ伝送装置
JP2018510595A (ja) * 2015-02-09 2018-04-12 ノキア テクノロジーズ オサケユイチア 画像コーディング・デコーディングのための装置、方法およびコンピュータ・プログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060233247A1 (en) * 2005-04-13 2006-10-19 Visharam Mohammed Z Storing SVC streams in the AVC file format
CN101346718A (zh) * 2005-10-28 2009-01-14 意大利电信股份公司 用于向用户提供选定内容项的方法
US9195898B2 (en) * 2009-04-14 2015-11-24 Qualcomm Incorporated Systems and methods for image recognition using mobile devices
US8571319B2 (en) * 2009-07-28 2013-10-29 International Business Machines Corporation Enhanced screen capture for form manipulation
US9116988B2 (en) * 2010-10-20 2015-08-25 Apple Inc. Temporal metadata track
US10139985B2 (en) * 2012-06-22 2018-11-27 Matterport, Inc. Defining, displaying and interacting with tags in a three-dimensional model
JP6667987B2 (ja) * 2013-09-06 2020-03-18 イマージョン コーポレーションImmersion Corporation 触覚フィードバックを提供するための制御トラックを変換する方法及び装置
US9912994B2 (en) 2014-07-03 2018-03-06 Mobiledirect, Inc. Interactive distributed multimedia system
US20160313970A1 (en) * 2015-04-23 2016-10-27 Microsoft Technology Licensing, Llc Gapless media generation
US9897450B2 (en) * 2015-05-20 2018-02-20 Nokia Technologies Oy Method and apparatus to obtain differential location information
GB2538998A (en) * 2015-06-03 2016-12-07 Nokia Technologies Oy A method, an apparatus, a computer program for video coding
EP3107011B1 (en) * 2015-06-16 2018-12-12 Nokia Technologies Oy Method, apparatus, and computer program product for storage of dynamically derived images in an image container file
GB2539461B (en) * 2015-06-16 2020-01-08 Canon Kk Image data encapsulation
US9681111B1 (en) * 2015-10-22 2017-06-13 Gopro, Inc. Apparatus and methods for embedding metadata into video stream
US10163028B2 (en) * 2016-01-25 2018-12-25 Koninklijke Philips N.V. Image data pre-processing
CN108376285A (zh) * 2018-03-23 2018-08-07 中国科学院计算技术研究所 一种面向多变异体lstm神经网络加速器及数据处理方法
JP7100493B2 (ja) * 2018-05-16 2022-07-13 キヤノン株式会社 表示制御装置及びその制御方法及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008060622A (ja) * 2006-08-29 2008-03-13 Sony Corp 映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造
JP2012509522A (ja) * 2008-11-19 2012-04-19 イーストマン コダック カンパニー 事象毎に意味論的に分類する方法
US20140178043A1 (en) * 2012-12-20 2014-06-26 International Business Machines Corporation Visual summarization of video for quick understanding
WO2015093330A1 (ja) * 2013-12-17 2015-06-25 シャープ株式会社 認識データ伝送装置
JP2018510595A (ja) * 2015-02-09 2018-04-12 ノキア テクノロジーズ オサケユイチア 画像コーディング・デコーディングのための装置、方法およびコンピュータ・プログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DUAN LING-YU , ET AL., COMPACT DESCRIPTORS FOR VIDEO ANALYSIS: THE EMERGING MPEG STANDARD, JPN6022026586, 26 April 2017 (2017-04-26), ISSN: 0004814513 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2024004449A1 (ja) * 2022-06-29 2024-01-04 キヤノン株式会社 情報処理装置、情報処理方法、コンピュータプログラム

Also Published As

Publication number Publication date
EP3854105A1 (en) 2021-07-28
CN112740715A (zh) 2021-04-30
US11442985B2 (en) 2022-09-13
CN112740715B (zh) 2024-04-16
US20210349943A1 (en) 2021-11-11
EP3854105A4 (en) 2022-06-22
KR20210061399A (ko) 2021-05-27
WO2020058570A1 (en) 2020-03-26
KR102434374B1 (ko) 2022-08-19

Similar Documents

Publication Publication Date Title
US11442985B2 (en) Apparatus and a method for artificial intelligence
KR102276728B1 (ko) 멀티모달 콘텐츠 분석 시스템 및 그 방법
US6523046B2 (en) Infrastructure and method for supporting generic multimedia metadata
US10171541B2 (en) Methods, devices, and computer programs for improving coding of media presentation description data
US11341186B2 (en) Cognitive video and audio search aggregation
Prabhakaran Multimedia database management systems
EP1125245B1 (en) Image description system and method
US20230353826A1 (en) Content filtering in media playing devices
CN110324706B (zh) 一种视频封面的生成方法、装置及计算机存储介质
TWI428019B (zh) 用於編碼/解碼之方法與裝置
US20090157736A1 (en) Multimedia integration description scheme, method and system for mpeg-7
CN113010703B (zh) 一种信息推荐方法、装置、电子设备和存储介质
US20080195924A1 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
US20070086664A1 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
CN116210221A (zh) Mpeg和gltf媒体的时间对齐
KR100946694B1 (ko) 영상 정보 기반의 동영상 파일 중복 검사와 관리를 위한시스템 및 방법
JP7391963B2 (ja) コンテナファイルフォーマットで情報をシグナリングするための装置及び方法
CN116962756A (zh) 沉浸媒体的处理方法、装置、设备及存储介质
US10515092B2 (en) Structured record compression and retrieval
WO2008046243A1 (en) Method and device for encoding a data stream, method and device for decoding a data stream, video indexing system and image retrieval system
EP2533536A2 (en) Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents
CN112188235B (zh) 媒体处理方式的选择方法及媒体处理方法
Valsesia et al. ToothPic: camera-based image retrieval on large scales
WO2001069438A2 (en) Methods and apparatus for encoding multimedia annotations using time-synchronized description streams
Zigomitros et al. Storing metadata as QR codes in multimedia streams

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210421

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210421

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211119

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220530

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220629

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20220929

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230203