JP2023535108A - ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents
ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム Download PDFInfo
- Publication number
- JP2023535108A JP2023535108A JP2022564826A JP2022564826A JP2023535108A JP 2023535108 A JP2023535108 A JP 2023535108A JP 2022564826 A JP2022564826 A JP 2022564826A JP 2022564826 A JP2022564826 A JP 2022564826A JP 2023535108 A JP2023535108 A JP 2023535108A
- Authority
- JP
- Japan
- Prior art keywords
- video
- feature
- tag
- feature extraction
- modal
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 100
- 238000012549 training Methods 0.000 title claims abstract description 92
- 238000003860 storage Methods 0.000 title claims abstract description 23
- 238000004590 computer program Methods 0.000 title claims abstract description 16
- 238000000605 extraction Methods 0.000 claims abstract description 179
- 230000006870 function Effects 0.000 claims abstract description 36
- 239000013598 vector Substances 0.000 claims description 126
- 230000004927 fusion Effects 0.000 claims description 34
- 238000004422 calculation algorithm Methods 0.000 claims description 19
- 238000005070 sampling Methods 0.000 claims description 13
- 230000007246 mechanism Effects 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 4
- 230000001131 transforming effect Effects 0.000 claims description 4
- 238000005516 engineering process Methods 0.000 abstract description 6
- 238000013473 artificial intelligence Methods 0.000 abstract description 3
- 238000003058 natural language processing Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 20
- 238000012545 processing Methods 0.000 description 12
- 238000004891 communication Methods 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 230000000875 corresponding effect Effects 0.000 description 7
- 238000009432 framing Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 4
- 238000001228 spectrum Methods 0.000 description 4
- 230000002123 temporal effect Effects 0.000 description 4
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 238000013145 classification model Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 230000002596 correlated effect Effects 0.000 description 2
- 238000013136 deep learning model Methods 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 101000822695 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C1 Proteins 0.000 description 1
- 101000655262 Clostridium perfringens (strain 13 / Type A) Small, acid-soluble spore protein C2 Proteins 0.000 description 1
- 101000655256 Paraclostridium bifermentans Small, acid-soluble spore protein alpha Proteins 0.000 description 1
- 101000655264 Paraclostridium bifermentans Small, acid-soluble spore protein beta Proteins 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000005520 cutting process Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/774—Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/41—Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/70—Labelling scene content, e.g. deriving syntactic or semantic representations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7834—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7844—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/785—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7854—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/78—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/783—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/7847—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
- G06F16/7857—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/77—Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
- G06V10/80—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
- G06V10/806—Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/46—Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/40—Scenes; Scene-specific elements in video content
- G06V20/49—Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/103—Static body considered as a whole, e.g. static pedestrian or occupant recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/168—Feature extraction; Face representation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/10—Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
- G06V40/16—Human faces, e.g. facial parts, sketches or expressions
- G06V40/172—Classification, e.g. identification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Library & Information Science (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Human Computer Interaction (AREA)
- Medical Informatics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
Description
図1は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置の応用シーン概略図である。
stitching)、加算又は乗算などの操作を実行することにより、この少なくとも二つのモーダルの特徴の融合を実現する。
図7に示すように、この実施例のビデオタグの決定方法700は操作S710~操作S730を含むことができる。
図9に示すように、この実施例のビデオタグの決定装置900は第二ビデオ特徴取得モジュール910、タグ特徴取得モジュール920及びタグ決定モジュール930を含むことができる。
Claims (23)
- ビデオタグ推薦モデルのトレーニング方法であって、
ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、
前記方法は、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、
ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得することと、
ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得することと、
前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
ビデオタグ推薦モデルのトレーニング方法。 - 前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することは、
前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することと、
前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得することと、を含む
請求項1に記載の方法。 - 前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行うことは、
前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換することと、
アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに決定することと、
前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定することと、を含み、
ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
請求項2に記載の方法。 - それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、以下のことにより画像モーダルの特徴ベクトルを取得することを含み、
所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得し、
残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得し、
前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得する、
請求項2又は3に記載の方法。 - 所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出することは、
前記ビデオサンプルを複数のビデオセグメントに分割することと、
前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得することと、を含む
請求項4に記載の方法。 - それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
以下の方式によりテキストモーダルの特徴ベクトルを取得することを含み、
前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
請求項2~5のいずれか一項に記載の方法。 - それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
以下の方式によりオーディオモーダルの特徴ベクトルを取得することを含む:
前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
請求項2~5のいずれか一項に記載の方法。 - 前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることは、
前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離と第二距離を取得することと、
前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定することと、
前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
請求項1に記載の方法。 - 前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得することと、
前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得することと、をさらに含み、
ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
請求項1に記載の方法。 - ビデオタグを決定する方法であって、
ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得することと、
所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得することと、
前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとすることと、を含み、
ここで、前記ビデオタグ推薦モデルは、請求項1~9のいずれか一項に記載の方法を用いてトレーニングして得られる
ビデオタグの決定方法。 - ビデオタグ推薦モデルのトレーニング装置であって、
前記ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、前記装置は、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するための第一ビデオ特徴取得モジュールと、
ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得するための第一特徴取得モジュールと、
ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得するための第二特徴取得モジュールと、
前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
ビデオタグ推薦モデルのトレーニング装置。 - 前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
前記第一ビデオ特徴取得モジュールは、
前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得するためのベクトル取得サブモジュールと、
前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得するための特徴取得サブモジュールと、を含む
請求項10に記載の装置。 - 前記特徴取得サブモジュールは、
前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換するためのベクトル変換ユニットと、
アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みを決定するための重み決定ユニットと、
前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定するための重み付け和決定ユニットと、を含み、
ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
請求項12に記載の装置。 - 前記ベクトル取得サブモジュールは、
前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、画像モーダルの特徴ベクトルを取得するための画像ベクトル取得ユニットを含み、
前記画像ベクトル取得ユニットは、
所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得するためのフレームシーケンス取得サブユニットと、
残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得するためのベクトルシーケンス取得サブユニットと、
前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得するための特徴ベクトル融合サブユニットと、を含む
請求項12又は13に記載の装置。 - 前記フレームシーケンス取得サブユニットは、以下の方式により前記少なくとも二つのビデオフレームを抽出するために用いられ、
前記ビデオサンプルを複数のビデオセグメントに分割し、
前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントのうちの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得する
請求項14に記載の装置。 - 前記ベクトル取得サブモジュールは、
以下の方式によりテキストモーダルの特徴ベクトルを取得するためのテキストベクトル取得ユニットを含み、
前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
請求項12~15のいずれか一項に記載の装置。 - 前記ベクトル取得サブモジュールは、
以下の方式によりオーディオモーダルの特徴ベクトルを取得するためのオーディオベクトル取得ユニットを含み、
前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
請求項12~15のいずれか一項に記載の装置。 - 前記モデルトレーニングモジュールは、
前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離及び第二距離を取得するための距離決定サブモジュールと、
前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定するための値決定サブモジュールと、
前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングサブモジュールと、を含む
請求項11に記載の装置。 - 前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得するための距離決定モジュールと、
前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得するためのタグ取得モジュールと、をさらに含み、
ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
請求項11に記載の装置。 - ビデオタグを決定する装置であって、
ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するための第二ビデオ特徴取得モジュールと、
所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得するためのタグ特徴取得モジュールと、
前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとするタグ決定モジュールと、を含み、
ここで、前記ビデオタグ推薦モデルは請求項11~19のいずれか一項に記載の装置を用いてトレーニングして得られる
ビデオタグの決定装置。 - 電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリには前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。 - コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項1~10のいずれか一項に記載の方法を実行させる
コンピュータ可読記憶媒体。 - プロセッサにより実行される時に請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110754370.4A CN113378784B (zh) | 2021-07-01 | 2021-07-01 | 视频标签推荐模型的训练方法和确定视频标签的方法 |
CN202110754370.4 | 2021-07-01 | ||
PCT/CN2022/096229 WO2023273769A1 (zh) | 2021-07-01 | 2022-05-31 | 视频标签推荐模型的训练方法和确定视频标签的方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2023535108A true JP2023535108A (ja) | 2023-08-16 |
Family
ID=84237960
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2022564826A Pending JP2023535108A (ja) | 2021-07-01 | 2022-05-31 | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム |
Country Status (3)
Country | Link |
---|---|
EP (1) | EP4134921A4 (ja) |
JP (1) | JP2023535108A (ja) |
KR (1) | KR20220153088A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116308960B (zh) * | 2023-03-27 | 2023-11-21 | 杭州绿城信息技术有限公司 | 基于数据分析的智慧园区物业防控管理系统及其实现方法 |
CN116843998B (zh) * | 2023-08-29 | 2023-11-14 | 四川省分析测试服务中心 | 一种光谱样本加权方法及系统 |
CN117726721B (zh) * | 2024-02-08 | 2024-04-30 | 湖南君安科技有限公司 | 基于主题驱动与多模态融合的图像生成方法、设备及介质 |
-
2022
- 2022-05-31 EP EP22789452.4A patent/EP4134921A4/en active Pending
- 2022-05-31 JP JP2022564826A patent/JP2023535108A/ja active Pending
- 2022-05-31 KR KR1020227037066A patent/KR20220153088A/ko unknown
Also Published As
Publication number | Publication date |
---|---|
EP4134921A4 (en) | 2023-11-01 |
KR20220153088A (ko) | 2022-11-17 |
EP4134921A1 (en) | 2023-02-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2023273769A1 (zh) | 视频标签推荐模型的训练方法和确定视频标签的方法 | |
US20220335711A1 (en) | Method for generating pre-trained model, electronic device and storage medium | |
CN111062871B (zh) | 一种图像处理方法、装置、计算机设备及可读存储介质 | |
TWI737006B (zh) | 一種跨模態訊息檢索方法、裝置和儲存介質 | |
JP2022510704A (ja) | クロスモーダル情報検索方法、装置及び記憶媒体 | |
JP2022058915A (ja) | 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム | |
US10885344B2 (en) | Method and apparatus for generating video | |
CN111488489B (zh) | 视频文件的分类方法、装置、介质及电子设备 | |
JP2023535108A (ja) | ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム | |
CN112559800B (zh) | 用于处理视频的方法、装置、电子设备、介质和产品 | |
CN109657054A (zh) | 摘要生成方法、装置、服务器及存储介质 | |
CN109660865B (zh) | 为视频自动打视频标签的方法及装置、介质和电子设备 | |
WO2022188644A1 (zh) | 词权重的生成方法、装置、设备及介质 | |
CN113806588B (zh) | 搜索视频的方法和装置 | |
CN109582825B (zh) | 用于生成信息的方法和装置 | |
CN114861889B (zh) | 深度学习模型的训练方法、目标对象检测方法和装置 | |
JP7355865B2 (ja) | ビデオ処理方法、装置、デバイスおよび記憶媒体 | |
CN111046757B (zh) | 人脸画像生成模型的训练方法、装置及相关设备 | |
CN110263218B (zh) | 视频描述文本生成方法、装置、设备和介质 | |
US20240177506A1 (en) | Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption | |
WO2023197749A1 (zh) | 背景音乐的插入时间点确定方法、装置、设备和存储介质 | |
CN111859973B (zh) | 用于生成解说词的方法和装置 | |
CN114363695B (zh) | 视频处理方法、装置、计算机设备和存储介质 | |
CN117056728A (zh) | 一种时间序列生成方法、装置、设备和存储介质 | |
CN115909357A (zh) | 基于人工智能的目标识别方法、模型训练方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221025 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20221025 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20231003 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20231225 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20240213 |