JP2022501891A - 人工知能についての装置及び方法 - Google Patents
人工知能についての装置及び方法 Download PDFInfo
- Publication number
- JP2022501891A JP2022501891A JP2021514414A JP2021514414A JP2022501891A JP 2022501891 A JP2022501891 A JP 2022501891A JP 2021514414 A JP2021514414 A JP 2021514414A JP 2021514414 A JP2021514414 A JP 2021514414A JP 2022501891 A JP2022501891 A JP 2022501891A
- Authority
- JP
- Japan
- Prior art keywords
- box
- metadata
- data
- container file
- sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/83—Generation or processing of protective or descriptive data associated with content; Content structuring
- H04N21/84—Generation or processing of descriptive data, e.g. content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/435—Processing of additional data, e.g. decrypting of additional data, reconstructing software from modules extracted from the transport stream
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/14—Details of searching files based on file metadata
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
- G06F16/164—File meta data generation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/74—Browsing; Visualisation therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/234—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs
- H04N21/23418—Processing of video elementary streams, e.g. splicing of video streams, manipulating MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/235—Processing of additional data, e.g. scrambling of additional data or processing content descriptors
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/23—Processing of content or additional data; Elementary server operations; Server middleware
- H04N21/236—Assembling of a multiplex stream, e.g. transport stream, by combining a video stream with other content or additional data, e.g. inserting a URL [Uniform Resource Locator] into a video stream, multiplexing software data into a video stream; Remultiplexing of multiplex streams; Insertion of stuffing bits into the multiplex stream, e.g. to obtain a constant bit-rate; Assembling of a packetised elementary stream
- H04N21/23605—Creation or processing of packetized elementary streams [PES]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/20—Servers specifically adapted for the distribution of content, e.g. VOD servers; Operations thereof
- H04N21/25—Management operations performed by the server for facilitating the content distribution or administrating data related to end-users or client devices, e.g. end-user or client device authentication, learning user preferences for recommending movies
- H04N21/266—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel
- H04N21/26603—Channel or content management, e.g. generation and management of keys and entitlement messages in a conditional access system, merging a VOD unicast channel into a multicast channel for automatically generating descriptors from content, e.g. when it is not made available by its provider, using content analysis techniques
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/434—Disassembling of a multiplex stream, e.g. demultiplexing audio and video streams, extraction of additional data from a video stream; Remultiplexing of multiplex streams; Extraction or processing of SI; Disassembling of packetised elementary stream
- H04N21/4343—Extraction or processing of packetized elementary streams [PES]
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/43—Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
- H04N21/44—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs
- H04N21/44008—Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream, rendering scenes according to MPEG-4 scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/40—Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
- H04N21/45—Management operations performed by the client for facilitating the reception of or the interaction with the content or administrating data related to the end-user or to the client device itself, e.g. learning user preferences for recommending movies, resolving scheduling conflicts
- H04N21/466—Learning process for intelligent management, e.g. learning user preferences for recommending movies
- H04N21/4662—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms
- H04N21/4666—Learning process for intelligent management, e.g. learning user preferences for recommending movies characterized by learning algorithms using neural networks, e.g. processing the feedback provided by the user
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N21/00—Selective content distribution, e.g. interactive television or video on demand [VOD]
- H04N21/80—Generation or processing of content or additional data by content creator independently of the distribution process; Content per se
- H04N21/85—Assembly of content; Generation of multimedia applications
- H04N21/854—Content authoring
- H04N21/85406—Content authoring involving a specific file format, e.g. MP4 format
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Molecular Biology (AREA)
- Biomedical Technology (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Human Computer Interaction (AREA)
- Computer Security & Cryptography (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Abstract
Description
aligned(8) class TrackReferenceBox extends Box('tref') {
TrackReferenceTypeBox [];
}
aligned(8) class TrackReferenceTypeBox (unsigned int(32) reference_type) extends Box(reference_type) {
unsigned int(32) track_IDs[];
}
ボックスタイプ: 「csgp」
コンテナ: サンプルテーブルボックス又はトラックフラグメントボックス
必須: いいえ
量: ゼロ以上
a b c b a b c b a b c x x a b c b a b d b
これらの対応付けは、以下によって表され得る。
1.pattern_length=4、sample_count=11、
2.pattern_length=1、sample_count=2、
3.pattern_length=4、sample_count=6、
4.pattern_length=2、sample_count=2、
pattern=[
a b c b //長さ4のパターン1
x //長さ1のパターン2
a b c b //長さ4のパターン3
d b //長さ2のパターン4
] //したがって、pattern_lengthは、4+1+4+2=11である。
aligned(8) class CompactSampleToGroupBox
extends FullBox('csgp', version, 0)
{
unsigned int(32) grouping_type; unsigned int(1) index_msb_indicates_fragment_local_description;
unsigned int(1) grouping_type_parameter_present;
unsigned int(6) field_size_minus_1;
if (grouping_type_parameter_present == 1) {
unsigned int(32) grouping_type_parameter;
}
unsigned int(32) pattern_count;
totalPatternLength = 0;
for (i=1; i <= pattern_count; i++) {
unsigned int(32) pattern_length[i];
unsigned int(32) sample_count[i];
totalPatternLength += pattern_length[i];
}
for (j=1; j <= pattern_count; j++) {
for (k=1; k <= pattern_length[j]; k++) {
unsigned int(field_size) sample_group_description_index[j][k];
//そのmsbはfragment_local又はグローバルを示し得る
}
}
}
versionは、このボックスのバージョンを規定する整数であり、現在0である。
aligned(8) class SubSampleInformationBox
extends FullBox('subs', version, flags) {
unsigned int(32) entry_count;
int i,j;
for (i=0; i < entry_count; i++) {
unsigned int(32) sample_delta;
unsigned int(16) subsample_count;
if (subsample_count > 0) {
for (j=0; j < subsample_count; j++) {
if(version == 1)
{
unsigned int(32) subsample_size;
}
else
{
unsigned int(16) subsample_size;
}
unsigned int(8) subsample_priority;
unsigned int(8) discardable;
unsigned int(32) codec_specific_parameters;
}
}
}
}
1.画像、画像シーケンス、又は動画についてのAI及び機械学習アルゴリズムインターフェース結果の記憶
2.特定の動作を実行する(例えば、複数の顔を検出し、次いで、別々のプロセスとして複数の顔を認識し、それらの関連メタデータを記憶する)ために次々に実行しなければならないカスケードプロセスに関する情報の記憶
3.任意の他のエンティティが、アルゴリズム(又はアルゴリズムの新しいバージョン)を再実行し、次いで、メディアファイル内の関連メタデータを更新し得るように利用されるアルゴリズムに関する情報の記憶
4.データが、結果を利用する他者によって適切に解析され得るように、適用されたAIベースのアルゴリズムの結果として記憶されるデータのフォーマットに関する情報の記憶
・物体検出
・顔検出及び認識
・人の感情
・性別及び年齢予測
・顔ランドマーク分析
・顔ポーズ検出
・光学文字認識(Optical Character Recognition:OCR)(HEIFでの正確なテキスト及び保存)
・不適切なコンテンツ分析(オートコンテンツフィルタ)
・コンテキスト検出
・コンテキストベースの物体及びセマンティック解析(例えば、ウェディング、ディナー、誕生日、パーティ、スポーツなど)
・動作認識
・ロゴ及び製品検出
・一般的な画像属性(色、光、雰囲気など)
・シーンセマンティック解析
・画像キャプショニング
・セグメンテーション及びアルファマスク
・デプスマップ
・非破壊画像操作(例えば、スタイル変換、アルファマスキング及び画像ブレンディング、「レンズ」、フィルタ、...)
1.AIベースのアルゴリズムに関する記述的メタデータを含む、新しいプロパティボックス
2.AIベースのアルゴリズムメタデータ出力を記憶する新しいボックス。このボックスは、一般的なペイロード定義を有し得るため、任意のAIアルゴリズム出力に準拠する。追加のサービス及びスキーム情報が、アルゴリズム出力のセマンティック及びシンタックス情報を提供する。
3.定義されたデータフローで実行する複数のアルゴリズムで構成されたAIプロセスに関する情報を含む新しいボックス。
4.時間的に変化する方法でAIベースのアルゴリズム出力メタデータを含む、時間指定メタデータトラックについての新しいメディアサンプル定義。
5.上述の新しいボックスを、ISOベースのメディアファイルフォーマットの他の情報搬送エンティティに関連付けるための関係定義。
1.サービス定義インジケータ
2.サービスのどのバージョンがAIデータを生成するために利用されるかを示すサービスバージョン
3.AIサービスに関する更なる詳細を提供するサービス記述
4.記憶されたAIデータを解析するためにシンタックス定義を提供するサービススキーマロケーション。このスキーマは、AIデータについての一般的なコンテナを有するのに必要なフレキシビリティを提供する。
5.AIデータを搬送するための一般的なデータ構造。
6.異なるAIプロセス間で入力/出力依存性を関連付けるための一般的なメカニズム。例えば、顔認識AIプロセスは、画像内の顔に境界ボックスを提供するために、まず顔検出器に依存する。
7.利用されたニューラルネットワークモデルを記憶するか、又は指し示すための一般的なメカニズム。
アイテム5は、AIデータを搬送するための一般的なデータ構造に関する。これは、VAIデータボックスと呼ばれる新しいボックスを定義することによって実施され得る。このボックスは、アイテムプロパティコンテナボックス、又はメタボックスもしくはメディアボックス内の任意の他の場所に記憶され得る。
aligned(8) class VAIDataBox
extends FullBox('vaid', version = 0, flags = 0) {
unsigned int(8)vai_data[];
}
アイテム1、2、3、及び4は、サービス定義インジケータ、サービスバージョン、サービス記述、及びサービススキーマロケーションに関する。これらについて、新しいアイテムプロパティが定義され得る。当該定義は、以下のとおりであり得る。
aligned(8) class VAIIProperty
extends ItemFullProperty('vaii', version = 0, flags = 0)
{
string service;
string service_version; // オプション
string service_description; // オプション
string schema_location; // オプション
VAIDataBox();
}
アイテム6は、異なるAIプロセス間で入力/出力依存性を関連付けるための一般的なメカニズムに関する。これについて、アイテムプロパティリレーションボックスと呼ばれる新しいボックスが、プロパティの入力/出力関係を記憶するために定義され得る。このボックスは、アイテムプロパティボックス(「iprp」)は、メタボックス内の任意の他のボックス内であり得る。
aligned(8) class ItemPropertyRelationBox
extends FullBox('iprl', version = 0, flags = 0) {
unsigned int (8) input_count;
for (i=0; i<input_count; i++) {
unsigned int(16) property_index;
}
unsigned int (8) output_count;
for (i=0; i< output_count; i++) {
unsigned int(16) property_index;
}
}
aligned(8) class ItemPropertyAssociationBox
extends FullBox('ipma', version, flags)
{
unsigned int(32) entry_count;
for (i = 0; i < entry_count; i++) {
if (version < 1)
unsigned int(16) item_ID;
else
unsigned int(32) item_ID;
unsigned int(8) association_count;
for (i=0; i<association_count; i++) {
bit(1) essential;
if (flags & 1)
unsigned int(15) property_index;
else
unsigned int(7) property_index;
}
If (flags & 2)
ItemPropertyRelationBox relation;
}
}
extends FullBox('ipma', version, flags)
{
unsigned int(32) entry_count;
for (i = 0; i < entry_count; i++) {
if (version < 1)
unsigned int(16) item_ID;
else
unsigned int(32) item_ID;
unsigned int(8) association_count;
for (i=0; i<association_count; i++) {
bit(1) essential;
if (flags & 1)
unsigned int(15) property_index;
else
unsigned int(7) property_index;
}
}
if (flags & 2) {
unsigned int[16] relation_count;
ItemPropertyRelationBox
relation[relation_count];
}
}
2.AIペイロードデータは、図4に示されるように、アイテムとして記憶及びシグナリングされる。
aligned(8) class SingleItemTypeReferenceBox(referenceType) extends Box(referenceType) {
unsigned int(16) from_item_ID;
unsigned int(16) reference_count;
for (j=0; j<reference_count; j++) {
unsigned int(16) to_item_ID;
}
}
aligned(8) class SingleItemTypeReferenceBoxLarge(referenceType) extends Box(referenceType) {
unsigned int(32) from_item_ID;
unsigned int(16) reference_count;
for (j=0; j<reference_count; j++) {
unsigned int(32) to_item_ID;
}
}
aligned(8) class ItemReferenceBox extends FullBox('iref', version, 0) {
if (version==0) {
SingleItemTypeReferenceBox references[];
} else if (version==1) {
SingleItemTypeReferenceBoxLarge references[];
}
}
アイテム7は、利用されたニューラルネットワークモデルを記憶するか、又は指し示すための一般的なメカニズムに関する。これは、NNプロパティと呼ばれ得る新しいプロパティによって、及びこのプロパティボックスに適用されたニューラル情報を記憶することによって実施され得る。このプロパティのシンタックスは、以下のとおりであり得る。
aligned(8) class NNProperty
extends ItemFullProperty('nnpr', version = 0, flags = 0) {
string nn_description;
string nn_representation;
string nn_URL;
NNModelBox();
}
aligned(8) class NNModelBox
extends FullBox('nnmb', version = 0, flags = 0) {
unsigned int(8)nn_model_data[];
}
AIメタデータが、画像シーケンスのサンプル又はビデオトラックのサンプルに属する場合、AIメタデータは、時間指定メタデータトラックのサンプルとして記憶され得る。サンプルは、不透明なデータ又はデータブロブとして記憶され得る。メタデータサンプルについてのサンプル記述は、以下のように定義され得る。
class AIMetaDataSampleEntry() extends MetaDataSampleEntry('aise') {
AIInfoBox(); // オプションで存在し得る
Box[] other_boxes; // オプション
}
以下で記載される実施形態は、AIベースのアルゴリズムの出力によって、修正されたある画像が、次いでコード化され、HEIFファイルに記憶された場合に適用可能である。
aligned aligned(8) class PreDerivationProperty
extends ItemFullProperty('prdp', version = 0, flags = 0) {
unsigned int(8) entry_count;
for (i = 0; i < entry_count; i++) {
unsigned int(32) pre_derivation_4cc;
}
string service; // オプション
string service_version; // オプション
string service_description; // オプション
string schema_location; // オプション
VAIDataBox();
}
Claims (15)
- コンテナファイルフォーマットでビジュアルデータを受信することと、
1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理することと、
前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶することと、
前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含めることと、
を含む、方法。 - 前記コンテナファイルは、処理アルゴリズムについてのメタデータを含む第1のボックスを含む、請求項1に記載の方法。
- 前記コンテナファイルは、前記1つ以上のコンテンツ要素についてのメタデータを含む第2のボックスを含む、請求項1又は2に記載の方法。
- 前記コンテナファイルは、複数の処理アルゴリズムのプロセスについてのメタデータを含む第3のボックスを含む、請求項1から3のいずれかに記載の方法。
- 前記コンテナファイルは画像シーケンス又は動画であり、
前記コンテナファイルは、前記メタデータを含むメディアトラックについてのメディアサンプル定義を含む、請求項1から4のいずれかに記載の方法。 - 前記コンテナファイルは、前記コンテナファイル内の情報を搬送する他のエンティティにコンテナを関連付けるための関係定義を含む、請求項1から5のいずれかに記載の方法。
- 前記ビジュアルデータは、前記1つ以上のコンテンツ要素を検出するために、1つ以上のニューラルネットワーク又は1つ以上の非ニューラルネットワークベースのアルゴリズムによって処理される、請求項1から6のいずれかに記載の方法。
- コンテナファイルフォーマットでビジュアルデータを受信する手段と、
1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理する手段と、
前記検出された1つ以上のコンテンツ要素、及び前記1つ以上のコンテンツ要素を検出するために使用されたプロセスに関する情報を、メタデータとして記憶する手段と、
前記ビジュアルデータに対応付けて前記コンテナファイルに前記メタデータを含める手段と、
を備える、装置。 - 前記コンテナファイルは、処理アルゴリズムについてのメタデータを含む第1のボックスを含む、請求項8に記載の装置。
- 前記コンテナファイルは、前記1つ以上のコンテンツ要素についてのメタデータを含む第2のボックスを含む、請求項8又は9に記載の装置。
- 前記コンテナファイルは、複数の処理アルゴリズムのプロセスについてのメタデータを含む第3のボックスを含む、請求項8から10のいずれかに記載の装置。
- 前記コンテナファイルは、画像シーケンス又は動画であり、
前記コンテナファイルは、前記メタデータを含むメディアトラックについてのメディアサンプル定義を含む、
請求項8から11のいずれかに記載の装置。 - 前記コンテナファイルは、前記コンテナファイル内の情報を搬送する他のエンティティにコンテナを関連付けるための関係定義を含む、請求項8から12のいずれかに記載の装置。
- 前記1つ以上のコンテンツ要素を検出するために前記ビジュアルデータを処理するために、1つ以上のニューラルネットワーク又は1つ以上の非ニューラルネットワークベースのアルゴリズムを更に含む、請求項8から13のいずれかに記載の装置。
- 少なくとも1つのプロセッサと、コンピュータプログラムコードを含むメモリと、を更に備える、請求項8から14のいずれかに記載の装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
FI20185781 | 2018-09-20 | ||
FI20185781 | 2018-09-20 | ||
PCT/FI2019/050658 WO2020058570A1 (en) | 2018-09-20 | 2019-09-13 | An apparatus and a method for artificial intelligence |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022501891A true JP2022501891A (ja) | 2022-01-06 |
Family
ID=69888410
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021514414A Pending JP2022501891A (ja) | 2018-09-20 | 2019-09-13 | 人工知能についての装置及び方法 |
Country Status (6)
Country | Link |
---|---|
US (1) | US11442985B2 (ja) |
EP (1) | EP3854105A4 (ja) |
JP (1) | JP2022501891A (ja) |
KR (1) | KR102434374B1 (ja) |
CN (1) | CN112740715B (ja) |
WO (1) | WO2020058570A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024004449A1 (ja) * | 2022-06-29 | 2024-01-04 | キヤノン株式会社 | 情報処理装置、情報処理方法、コンピュータプログラム |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111294512A (zh) * | 2020-02-10 | 2020-06-16 | 深圳市铂岩科技有限公司 | 图像处理方法、装置、存储介质及摄像装置 |
JP7471135B2 (ja) | 2020-04-22 | 2024-04-19 | 株式会社日立製作所 | 学習モデル生成システムおよび学習モデル生成方法 |
US20240022787A1 (en) * | 2020-10-13 | 2024-01-18 | Nokia Technologies Oy | Carriage and signaling of neural network representations |
WO2022220207A1 (ja) * | 2021-04-13 | 2022-10-20 | ソニーグループ株式会社 | 情報処理装置および方法 |
KR102588266B1 (ko) * | 2021-06-21 | 2023-10-13 | 한국전자통신연구원 | 로봇과 인공지능 서비스 간의 자동화 통신 장치 및 이를 이용한 방법 |
CN116137596A (zh) * | 2021-11-16 | 2023-05-19 | 维沃移动通信有限公司 | Ai信息的传输方法和设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008060622A (ja) * | 2006-08-29 | 2008-03-13 | Sony Corp | 映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造 |
JP2012509522A (ja) * | 2008-11-19 | 2012-04-19 | イーストマン コダック カンパニー | 事象毎に意味論的に分類する方法 |
US20140178043A1 (en) * | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
WO2015093330A1 (ja) * | 2013-12-17 | 2015-06-25 | シャープ株式会社 | 認識データ伝送装置 |
JP2018510595A (ja) * | 2015-02-09 | 2018-04-12 | ノキア テクノロジーズ オサケユイチア | 画像コーディング・デコーディングのための装置、方法およびコンピュータ・プログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060233247A1 (en) * | 2005-04-13 | 2006-10-19 | Visharam Mohammed Z | Storing SVC streams in the AVC file format |
CN101346718A (zh) * | 2005-10-28 | 2009-01-14 | 意大利电信股份公司 | 用于向用户提供选定内容项的方法 |
US9195898B2 (en) * | 2009-04-14 | 2015-11-24 | Qualcomm Incorporated | Systems and methods for image recognition using mobile devices |
US8571319B2 (en) * | 2009-07-28 | 2013-10-29 | International Business Machines Corporation | Enhanced screen capture for form manipulation |
US9116988B2 (en) * | 2010-10-20 | 2015-08-25 | Apple Inc. | Temporal metadata track |
US10139985B2 (en) * | 2012-06-22 | 2018-11-27 | Matterport, Inc. | Defining, displaying and interacting with tags in a three-dimensional model |
JP6667987B2 (ja) * | 2013-09-06 | 2020-03-18 | イマージョン コーポレーションImmersion Corporation | 触覚フィードバックを提供するための制御トラックを変換する方法及び装置 |
US9912994B2 (en) | 2014-07-03 | 2018-03-06 | Mobiledirect, Inc. | Interactive distributed multimedia system |
US20160313970A1 (en) * | 2015-04-23 | 2016-10-27 | Microsoft Technology Licensing, Llc | Gapless media generation |
US9897450B2 (en) * | 2015-05-20 | 2018-02-20 | Nokia Technologies Oy | Method and apparatus to obtain differential location information |
GB2538998A (en) * | 2015-06-03 | 2016-12-07 | Nokia Technologies Oy | A method, an apparatus, a computer program for video coding |
EP3107011B1 (en) * | 2015-06-16 | 2018-12-12 | Nokia Technologies Oy | Method, apparatus, and computer program product for storage of dynamically derived images in an image container file |
GB2539461B (en) * | 2015-06-16 | 2020-01-08 | Canon Kk | Image data encapsulation |
US9681111B1 (en) * | 2015-10-22 | 2017-06-13 | Gopro, Inc. | Apparatus and methods for embedding metadata into video stream |
US10163028B2 (en) * | 2016-01-25 | 2018-12-25 | Koninklijke Philips N.V. | Image data pre-processing |
CN108376285A (zh) * | 2018-03-23 | 2018-08-07 | 中国科学院计算技术研究所 | 一种面向多变异体lstm神经网络加速器及数据处理方法 |
JP7100493B2 (ja) * | 2018-05-16 | 2022-07-13 | キヤノン株式会社 | 表示制御装置及びその制御方法及びプログラム |
-
2019
- 2019-09-13 EP EP19862049.4A patent/EP3854105A4/en active Pending
- 2019-09-13 US US17/274,361 patent/US11442985B2/en active Active
- 2019-09-13 KR KR1020217011473A patent/KR102434374B1/ko active IP Right Grant
- 2019-09-13 CN CN201980061531.2A patent/CN112740715B/zh active Active
- 2019-09-13 WO PCT/FI2019/050658 patent/WO2020058570A1/en unknown
- 2019-09-13 JP JP2021514414A patent/JP2022501891A/ja active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2008060622A (ja) * | 2006-08-29 | 2008-03-13 | Sony Corp | 映像編集システム、映像処理装置、映像編集装置、映像処理方法、映像編集方法、プログラムおよびデータ構造 |
JP2012509522A (ja) * | 2008-11-19 | 2012-04-19 | イーストマン コダック カンパニー | 事象毎に意味論的に分類する方法 |
US20140178043A1 (en) * | 2012-12-20 | 2014-06-26 | International Business Machines Corporation | Visual summarization of video for quick understanding |
WO2015093330A1 (ja) * | 2013-12-17 | 2015-06-25 | シャープ株式会社 | 認識データ伝送装置 |
JP2018510595A (ja) * | 2015-02-09 | 2018-04-12 | ノキア テクノロジーズ オサケユイチア | 画像コーディング・デコーディングのための装置、方法およびコンピュータ・プログラム |
Non-Patent Citations (1)
Title |
---|
DUAN LING-YU , ET AL., COMPACT DESCRIPTORS FOR VIDEO ANALYSIS: THE EMERGING MPEG STANDARD, JPN6022026586, 26 April 2017 (2017-04-26), ISSN: 0004814513 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2024004449A1 (ja) * | 2022-06-29 | 2024-01-04 | キヤノン株式会社 | 情報処理装置、情報処理方法、コンピュータプログラム |
Also Published As
Publication number | Publication date |
---|---|
EP3854105A1 (en) | 2021-07-28 |
CN112740715A (zh) | 2021-04-30 |
US11442985B2 (en) | 2022-09-13 |
CN112740715B (zh) | 2024-04-16 |
US20210349943A1 (en) | 2021-11-11 |
EP3854105A4 (en) | 2022-06-22 |
KR20210061399A (ko) | 2021-05-27 |
WO2020058570A1 (en) | 2020-03-26 |
KR102434374B1 (ko) | 2022-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11442985B2 (en) | Apparatus and a method for artificial intelligence | |
KR102276728B1 (ko) | 멀티모달 콘텐츠 분석 시스템 및 그 방법 | |
US6523046B2 (en) | Infrastructure and method for supporting generic multimedia metadata | |
US10171541B2 (en) | Methods, devices, and computer programs for improving coding of media presentation description data | |
US11341186B2 (en) | Cognitive video and audio search aggregation | |
Prabhakaran | Multimedia database management systems | |
EP1125245B1 (en) | Image description system and method | |
US20230353826A1 (en) | Content filtering in media playing devices | |
CN110324706B (zh) | 一种视频封面的生成方法、装置及计算机存储介质 | |
TWI428019B (zh) | 用於編碼/解碼之方法與裝置 | |
US20090157736A1 (en) | Multimedia integration description scheme, method and system for mpeg-7 | |
CN113010703B (zh) | 一种信息推荐方法、装置、电子设备和存储介质 | |
US20080195924A1 (en) | Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents | |
US20070086664A1 (en) | Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents | |
CN116210221A (zh) | Mpeg和gltf媒体的时间对齐 | |
KR100946694B1 (ko) | 영상 정보 기반의 동영상 파일 중복 검사와 관리를 위한시스템 및 방법 | |
JP7391963B2 (ja) | コンテナファイルフォーマットで情報をシグナリングするための装置及び方法 | |
CN116962756A (zh) | 沉浸媒体的处理方法、装置、设备及存储介质 | |
US10515092B2 (en) | Structured record compression and retrieval | |
WO2008046243A1 (en) | Method and device for encoding a data stream, method and device for decoding a data stream, video indexing system and image retrieval system | |
EP2533536A2 (en) | Method and apparatus for encoding multimedia contents and method and system for applying encoded multimedia contents | |
CN112188235B (zh) | 媒体处理方式的选择方法及媒体处理方法 | |
Valsesia et al. | ToothPic: camera-based image retrieval on large scales | |
WO2001069438A2 (en) | Methods and apparatus for encoding multimedia annotations using time-synchronized description streams | |
Zigomitros et al. | Storing metadata as QR codes in multimedia streams |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210421 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210421 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211119 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20220530 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220629 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220929 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20230203 |