JP2023535108A - ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム - Google Patents

ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP2023535108A
JP2023535108A JP2022564826A JP2022564826A JP2023535108A JP 2023535108 A JP2023535108 A JP 2023535108A JP 2022564826 A JP2022564826 A JP 2022564826A JP 2022564826 A JP2022564826 A JP 2022564826A JP 2023535108 A JP2023535108 A JP 2023535108A
Authority
JP
Japan
Prior art keywords
video
feature
tag
feature extraction
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022564826A
Other languages
English (en)
Inventor
▲ヂー▼ 叶
▲シン▼ 唐
賀 偉 王
利 葛
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from CN202110754370.4A external-priority patent/CN113378784B/zh
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Publication of JP2023535108A publication Critical patent/JP2023535108A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/774Generating sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/70Labelling scene content, e.g. deriving syntactic or semantic representations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7844Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using original textual content or text extracted from visual content or transcript of audio data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/785Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using colour or luminescence
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using shape
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7847Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content
    • G06F16/7857Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using low-level visual features of the video content using texture
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/168Feature extraction; Face representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/172Classification, e.g. identification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Molecular Biology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本開示は、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、人工知能技術分野に適用され、具体的には音声認識、自然言語処理、コンピュータビジョン及びインテリジェント推薦技術分野に適用される。そのうち、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。このビデオタグ推薦モデルのトレーニング方法は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得することと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングすることと、を含む。

Description

本願は、2021年7月01日に提出された中国特許出願No.202110754370.4の優先権を要求し、その内容は併せてここを参考にする。
本開示は、人工知能技術分野に関し、具体的には音声認識、自然言語処理、コンピュータビジョン及びインテリジェント推薦技術分野に関し、より具体的にはビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器及び記憶媒体に関する。
コンピュータ技術及びネットワーク技術の発展に伴い、ビデオが情報の伝播キャリアとして十分に発展している。ユーザに効率的なビデオ検索及びビデオ推薦等のサービスを提供するために、通常、ビデオにタグを添加する必要がある。
関連技術において、主に教師あり学習に依存してビデオを分類する。教師あり学習は、通常、マークされた大量のデータに依存する。ビデオを分類することによりタグを決定する技術的解決手段において、通常、タグ体系を予め定義する必要がある。タグ体系がリアルタイム需要に応じて調整されると、分類モデルを再度にトレーニングする必要がある。
本発明は、モデルの柔軟性を向上させるビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、機器及び記憶媒体を提供する。
本開示の一態様によれば、ビデオタグ推薦モデルのトレーニング方法を提供し、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、この方法は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得することと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングすることと、を含む。
本開示の別の態様によれば、ビデオタグの決定方法を提供し、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得することと、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、各タグのタグ特徴を取得することと、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとすることと、を含み、ここで、ビデオタグ推薦モデルは、上記したビデオに対するビデオタグ推薦モデルのトレーニング方法を用いてトレーニングして得られる。
本開示の別の態様によれば、ビデオタグ推薦モデルのトレーニング装置を提供し、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、この装置は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するための第一ビデオ特徴取得モジュールと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得するための第一特徴取得モジュールと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得するための第二特徴取得モジュールと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングモジュールと、を含む。
本開示の別の態様によれば、ビデオタグの決定装置を提供し、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するための第二ビデオ特徴取得モジュールと、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、各タグのタグ特徴を取得するためのタグ特徴取得モジュールと、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとするタグ決定モジュールと、を含み、ここで、ビデオタグ推薦モデルは上記したビデオタグ推薦モデルのトレーニング装置を用いてトレーニングして得られる。
本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリとを含み、メモリには少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令は、少なくとも一つのプロセッサが本開示に記載のビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法を実行することができるように、少なくとも一つのプロセッサにより実行される。
本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令はコンピュータに本開示に記載のビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法を実行させる。
本開示の別の態様によれば、コンピュータプログラム製品を提供し、プロセッサにより実行される時に本開示に記載のビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法を実現するコンピュータプログラムを含む。
理解すべきこととして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。
図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。
図1は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置の応用シーン概略図である。 図2は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法のフローチャート概略図である。 図3は、本開示の実施例に係るビデオサンプルの第一ビデオ特徴を取得する原理概略図である。 図4は、本開示の実施例に係るビデオモーダルの特徴ベクトルを決定する原理概略図である。 図5は、本開示の実施例に係るオーディオモーダルの特徴ベクトルを決定する原理概略図である。 図6は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法の原理概略図である。 図7は、本開示の実施例に係るビデオタグを決定する方法のフローチャート概略図である。 図8は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング装置の構造ブロック図である。 図9は、本開示の実施例に係るビデオタグを決定する装置の構造ブロック図である。 図10は、本開示の実施例のビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法を実施するための電子機器のブロック図である。
以下、図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含み理解することに役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば分かるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。
本開示は、ビデオタグ推薦モデルのトレーニング方法を提供し、そのうち、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。トレーニング方法は融合特徴取得段階、タグ特徴取得段階及びモデルトレーニング段階を含む。融合特徴取得段階において、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得する。タグ特徴取得段階において、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得する;かつネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得する。モデルトレーニング段階において、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングする。
以下に図1を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図1は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置の応用シーン概略図である。
図1に示すように、この実施例のシーン100はサーバ110、第一データベース120及び第二データベース130を含む。サーバ110は例えばネットワークを介して第一データベース120及び第二データベース130にアクセスすることができ、ネットワークは有線又は無線通信リンクを含むことができる。
第一データベース120は例えばタグライブラリであってもよく、このタグライブラリに複数のタグがメンテナンスされる。このタグライブラリにおけるタグは、例えば、実際の需要に応じて動的に調整することができる。例えば、この複数のタグはリアルタイム情報ホットスポットから抽出された複数のキーワード等を指示することができる。サーバ110はこの第一データベース120にアクセスすることにより、第一データベース120からタグ140を取得することができる。
第二データベース130は例えばビデオライブラリであってもよく、このビデオライブラリに複数のビデオがメンテナンスされ、この複数のビデオにマークされたビデオとマークされていないビデオが含まれてもよい。ここで、マークされたビデオとは、タグを有するビデオを指す。サーバ110は例えば第二データベース130からマークされていないビデオ150を読み取り、かつこのマークされていないビデオ150に基づいて第一データベース120からマッチングされたタグを選択し、このマッチングされたタグによってこのマークされていないビデオ150をマークし、マークされたビデオ160を取得することができる。このサーバ110はさらにマークされたビデオ160を第二データベース130に記憶することができる。
一実施例において、第一データベース120と第二データベース130は例えば同じデータベース内の異なる記憶領域であってもよい。第二データベース130には例えば少なくとも二つの互いに独立した記憶空間を有することができ、それによりそれぞれマークされていないビデオ及びマークされたビデオを記憶するために用いられる。
一実施例において、図1に示すように、この応用シーン100はさらに端末装置170を含むことができ、この端末装置170はネットワークを介してサーバ110と対話することができ、この端末装置170は例えばネットワークを介して第二データベース130にアクセスすることにより、生成されたビデオをマークされていないビデオとして第二データベース130に記憶する。
本開示の実施例によれば、端末装置170は、サーバ110との対話により、例えばサーバ110にビデオ取得要求を送信することができる。サーバ110は例えばこのビデオ取得要求に応答して第二データベース130中のマークされたビデオからマッチングされたビデオを取得し、かつこのマッチングされたビデオを端末装置170にフィードバックすることにより、端末装置170に表示及び再生を行うことができる。
例示的には、端末装置170は例えばディスプレイを有するデスクトップコンピュータ、ラップトップ型携帯コンピュータ、タブレットコンピュータ、スマートフォン、スマートウォッチ等の電子機器であってもよく、この端末装置170に様々なクライアントアプリケーションがインストールされてもよい。サーバ110は例えばビデオ再生類アプリケーションの実行をサポートする任意のサーバであってもよく、例えば分散式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
説明すべきものとして、本開示の実施例が提供するビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法は一般的にサーバ110により実行されてもよく、又はサーバ110と通信接続された他のサーバによって実行されてもよい。本開示の実施例が提供するビデオタグ推薦モデルのトレーニング装置及び/又はビデオタグの決定装置はサーバ110に設置されてもよく、又はサーバ110と通信接続された他のサーバに設置されてもよい。
理解すべきものとして、図1におけるサーバ、データベース及び端末装置の数及びタイプは単に例示的である。実現需要に応じて、任意のデータ及びタイプのサーバ、データベース及び端末装置を有することができる。
以下に図1を参照し、以下の図2~図6により本開示が提供するビデオタグ推薦モデルのトレーニング方法を詳細に説明する。
図2に示すように、この実施例のビデオタグ推薦モデルのトレーニング方法200は操作S210~操作S240を含むことができる。
本開示の実施例によれば、このビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを有することができる。ここで、ビデオ特徴抽出ネットワークは画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルのうちの少なくとも一つを用いてビデオの特徴を抽出することができ、タグ特徴抽出ネットワークはテキスト特徴抽出モデルを用いてタグの特徴を抽出することができる。
操作S210において、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得する。
本開示の実施例によれば、ビデオ特徴抽出ネットワークには前述の画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルのうちの少なくとも一つのモデルが設定されることができ、それによりビデオサンプルの特徴を抽出するために用いられる。
一実施例において、ビデオ特徴抽出ネットワークに少なくとも二つの特徴抽出層が設置されてもよく、この少なくとも二つの特徴抽出層にそれぞれ異なるモーダルの特徴抽出モデルが設置される。ビデオサンプルの第一ビデオ特徴を取得する場合、まずこの少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することができる。次にこの少なくとも二つのモーダルの特徴を融合し、第一ビデオ特徴を得て、すなわちこの第一ビデオ特徴はマルチモーダル特徴を融合したことにより得られた融合特徴である。
ここで、ビデオサンプルには、複数のビデオフレーム、各ビデオフレームに対応するオーディオデータ、各ビデオフレームに対応する字幕テキストデータ及びビデオのタイトルテキストデータなどを含むことができる。画像特徴抽出モデルは複数のビデオフレームに基づいて特徴を抽出することができ、オーディオ特徴抽出モデルはオーディオデータに基づいて特徴を抽出することができ、テキスト特徴抽出モデルは字幕テキストデータ及び/又はタイトルテキストデータなどに基づいて特徴を抽出することができる。
ここで、画像特徴抽出モデルは例えば畳み込みニューラルネットワークモデル、マルコフランダムフィールドモデル等であってもよく、抽出された特徴は、色特徴、形状特徴及びテクスチャ特徴等のうちの少なくとも一つを含むことができる。オーディオ特徴抽出モデルは例えばオーディオに対して、短時間フーリエ変換、離散コサイン変換、離散ウェーブレット変換、メル周波数スペクトル及びメル周波数ケプストラム、定Q変換などのうちの少なくとも一種を行うことができ、それによりオーディオ特徴を抽出して取得する。テキスト特徴抽出モデルは、例えば、単語袋モデル(Bag-of-words model)、TF-IDFモデル、ディープラーニングモデル等であってもよい。ここで、ディープラーニングモデルは畳み込みニューラルネットワーク、循環ニューラルネットワークなどであってもよい。理解できるように、上記画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルは例として本開示を理解することに役立ち、本開示はこれを限定しない。
ビデオ特徴抽出ネットワークは例えば特徴融合層を含むことができ、少なくとも二つのモーダルの特徴を取得した後、この特徴融合層はこの少なくとも二つのモーダルの特徴に対してスティッチング(
Figure 2023535108000002
stitching)、加算又は乗算などの操作を実行することにより、この少なくとも二つのモーダルの特徴の融合を実現する。
本開示の実施例によれば、融合を容易にするために、この実施例におけるビデオ特徴抽出ネットワークは例えば少なくとも二つの特徴抽出層と一対一に対応する完全接続層を含み、この完全接続層は特徴抽出層と特徴融合層との間に挟まれることにより、少なくとも二つのモーダルの特徴のサイズを変換する。それに応じて、特徴融合層は完全接続層を介して変換された特徴を融合するために用いられる。
操作S220において、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得する。
本開示の実施例によれば、タグ特徴抽出ネットワークには例えばテキスト特徴抽出モデルが設定されることができ、テキスト形式のタグの特徴を抽出することに用いられる。このテキスト特徴抽出モデルは前述のビデオ特徴抽出ネットワークにおけるテキスト特徴抽出モデルと類似する。又は、このタグ特徴抽出ネットワークにおけるテキスト特徴抽出モデルはショートテキスト特徴を抽出するためのモデル(例えばLSTMモデル、BERTモデル等)であってもよく、ビデオ特徴抽出ネットワークにおけるテキスト特徴抽出モデルはロングテキスト特徴を抽出するためのモデル(例えばBERT+LSTMモデル、TF-IDFモデル等)であってもよい。
この実施例は第一タグをこのタグ特徴抽出ネットワークに入力し、このタグ特徴抽出ネットワークを介して処理した後にこの第一特徴を出力することができる。
ここで、ポジティブサンプルである第一タグは、ビデオサンプルにマッチングするタグであってもよい。例えば、このビデオサンプルが体育試合ビデオであれば、この第一タグは「体育」であってもよい。この第一タグは経験に基づいて設定されてもよく、ビデオのタイトルとの間の類似度などに基づいて設定されてもよい。例えば、ビデオのタイトルとの類似度が0.9より大きいタグをポジティブサンプルとして選択することができる。理解できるように、前述の0.9は例示として本開示を理解することに役立ち、本開示はこれを限定しない。
操作S230において、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得する。
この操作S230は前述の操作S220と類似し、第二タグをこのタグ特徴抽出ネットワークに入力し、このタグ特徴抽出ネットワークによって処理した後にこの第二特徴を出力することができる。ここで、ネガティブサンプルである第一タグはビデオサンプルにマッチングしないタグであってもよい。例えば、このビデオサンプルが体育試合ビデオであれば、この第二タグは「バラエティ」等であってもよい。この第二タグは経験に基づいて設定されてもよく、ビデオのタイトルとの間の類似度などに基づいて設定されてもよい。例えば、ビデオのタイトルとの類似度が0.5未満のタグをネガティブサンプルとして選択することができる。理解できるように、前述の0.5は単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。
理解できるように、操作S230は例えば操作S220の後に実行されてもよく、操作S230の前に実行されてもよい。又は、トレーニング効率を向上させるために、トレーニング時に、さらにビデオタグ推薦モデルに二つのパラメータ共有のタグ特徴抽出ネットワークを設定することができ、この二つのネットワークはそれぞれ第一タグの第一特徴及び第二タグの第二特徴を取得するために用いられる。トレーニングが完了した後、この二つのネットワークのうちの一つのネットワークのみを保留して予測に用いられる。
操作S240において、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングする。
本開示の実施例によれば、まず第一ビデオ特徴、第一特徴及び第二特徴に基づいて所定の損失関数の値を決定することができる。次にこの所定の損失関数の値、逆方向伝播アルゴリズム又は勾配降下アルゴリズムに基づいてビデオタグ推薦モデルにおける各ネットワークモデルのパラメータを調整する。このビデオタグの推薦モデルに対するトレーニングにより、第一ビデオ特徴を第一特徴により近づけるとともに、第二特徴から離れるようにすることができる。このように予測する場合、トレーニングされたビデオタグ推薦モデルにより、タグライブラリからビデオによりマッチングするタグを選択することができる。
本開示の実施例によれば、ビデオサンプル、ポジティブサンプル及びネガティブサンプルはトリプレットサンプルペアを構成することができ、所定の損失関数はトリプレット損失(Triplet loss)関数であってもよい。それに応じて、後に説明する方法を用いて損失関数の値を決定することができ、ここで詳述しない。理解できるように、この所定の損失関数のタイプは例として本開示を理解することに役立ち、この所定の損失関数の値が第一ビデオ特徴と第一特徴との間の距離と正の相関すれば、第一ビデオ特徴と第二特徴との間の距離と負の相関すればよい。
総合的に分析し、本開示の実施例は、ビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを有するビデオタグ推薦モデルを設定し、かつポジティブサンプルの特徴及びネガティブサンプルの特徴に基づいてビデオタグ推薦モデルをトレーニングし、ビデオ特徴とタグ特徴との間の関連関係を学習することができる。トレーニング時に、ビデオサンプルに対するマークの正確性に依存する必要がなく、タグを明確に定義する必要がなく、タグ間の記述粒度等に注意する必要もない。さらに、ビデオサンプルのマルチモーダル融合特徴を抽出するビデオタグ推薦モデルを構築することにより、抽出されたビデオ特徴の汎化能力をより強くすることができ、ビデオをより正確に表現することができる。全体的に言えば、この実施例のトレーニング方法によりトレーニングして得られたビデオタグ推薦モデルは、より高い柔軟性及び正確性を有し、特にテーマの注目点の変換が速いシーンに適用され、ビデオタグを効率的に決定することができる。
図3は、本開示の実施例に係るビデオサンプルの第一ビデオ特徴を取得する原理概略図である。
本開示の実施例によれば、前記ビデオ特徴抽出ネットワークは、少なくとも二つのサブネットワーク及びこの少なくとも二つのサブネットワークを接続する特徴融合層を有し、各サブネットワークに一つの特徴抽出層が設置される。第一ビデオ特徴を取得する場合、少なくとも二つのサブネットワークに設定された少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することができる。具体的にはビデオサンプルを少なくとも二つの特徴抽出層における各層の入力として、この少なくとも二つの特徴抽出層を介して処理した後、それぞれ一つの特徴ベクトルを出力することができる。次に特徴融合層を用いて少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、第一ビデオ特徴を取得する。具体的にはこの少なくとも二つの特徴抽出層が出力した特徴ベクトルを特徴融合層の入力とし、特徴融合層における学習された重み値に基づいて少なくとも二つのモーダルの特徴ベクトルに対して重み付け加算を行うことができる。
例示的に、重み付け融合の前に、この実施例はまず少なくとも二つの特徴ベクトルを同じ大きさのベクトルに変換することができる。それに応じて、このビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層の後にそれぞれ完全接続層を添加することができ、各特徴抽出層が出力した特徴ベクトルをこの各特徴抽出層に接続された完全接続層の入力とし、この完全接続層の出力を特徴融合層の入力とする。
例示的に、特徴融合層は例えば混合エキスパートシステム(Mixture of Experts、MoE)を用いて少なくとも二つのモーダルの特徴ベクトルに対して重み付け融合を行うことができる。具体的な実現過程は以下のとおりである:まず少なくとも二つの特徴ベクトルの次元を統一次元に圧縮し、次にアテンションメカニズム(attention)に基づいて少なくとも二つの特徴ベクトルのそれぞれの重みを割り当て、最後に割り当てられた重みに基づいて、重み付け加算を行う。ビデオタグ推薦モデルをトレーニングする時、この混合エキスパートシステムにおけるアテンションメカニズムのパラメータを同時に調整することができる。この方式により、各モーダル特徴の比重を柔軟に調整することができ、それにより得られたビデオ特徴はビデオをよりよく表現することができる。
ここで、少なくとも二つのモーダルは、例えば二つのモーダル又はより多くのモーダルであってもよい。図3に示すように、この実施例300において、少なくとも二つのモーダルは画像モーダル、オーディオモーダル及びテキストモーダルを含むことができる。具体的には、アンカーサンプルとしてのビデオ310における画像311、オーディオ312及びテキスト313をそれぞれ画像特徴抽出モデル321、オーディオ特徴抽出モデル322及びテキスト特徴抽出モデル323の入力とすることができる。画像特徴抽出モデル321は画像311を処理した後、画像特徴331を出力することができる。オーディオ特徴抽出モデル322はオーディオ312を処理した後、オーディオ特徴332を出力することができる。テキスト特徴抽出モデル323はテキスト313を処理した後、テキスト特徴333を出力することができる。この画像特徴331、オーディオ特徴332、テキスト特徴333は、特徴融合層340の入力とされる。特徴融合層340に採用される混合エキスパートシステムは画像特徴抽出モデル321、オーディオ特徴抽出モデル322及びテキスト特徴抽出モデル323中の各モデルをエキスパートモデル(Expert model)と呼び、次に各エキスパートモデルが生成した結果に対して重み付け総合を行い、すなわちGateメカニズムに基づいて、各エキスパートモデルに異なる重みを学習する。このGateメカニズムはどのエキスパートモデルを使用するかを選択するために用いられ、この特徴融合層340の実際の出力は各モデルの出力とGateメカニズム学習の重みとの組み合わせであり、この組み合わせは第一ビデオ特徴350である。ここで、ビデオタグ推薦モデルをトレーニングする時、異なるエキスパートモデルパラメータの最適化の損失はgateメカニズムにより制御され、すなわち異なるエキスパートモデルに対する異なる目標の損失は異なる。
本開示の実施例によれば、テキストモーダルの特徴ベクトルを抽出する場合、ビデオサンプル中のテキストデータを少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、この第二特徴抽出層によりテキストモーダルの特徴ベクトルを出力することができる。ここで、第二特徴抽出層はテキスト特徴抽出モデルが設置されたサブネットワークである。
例示的には、BERTモデル又はERNIEモデルをテキスト特徴抽出モデルとして採用することができる。この実施例は、テキストデータを[cls] token対応特徴を有するセンテンスベクトルに変換することができる。このセンテンスベクトルをBERTモデル又はERNIEモデルに入力することにより、このBERTモデル又はERNIEモデルによって処理した後にテキスト特徴を出力して得られる。
例示的には、ビデオサンプル中のタイトルテキストを第二特徴抽出層の出力としてテキストモーダルの特徴ベクトルを取得することができる。これは字幕データに基づいて取得された特徴ノイズが多く、データが高く冗長であるためである。この実施例の方法により、特徴モデリング効果を向上させ、抽出されたテキスト特徴の正確性を向上させることができる。
以下では図4~図5を参照して画像特徴抽出モデル321により画像モーダルの特徴ベクトルを取得する原理及びオーディオ特徴抽出モデル322によりオーディオモーダルの特徴ベクトルを取得する原理をそれぞれ詳細に説明する。
図4は、本開示の実施例に係る画像モーダルの特徴ベクトルを決定する原理概略図である。
本開示の実施例によれば、画像特徴抽出モデルを用いて画像モーダルの特徴ベクトルを取得する場合、ビデオサンプル中の各ビデオフレームを時間配列順序に基づいて少なくとも二つの特徴抽出層における第一特徴抽出層を順次に入力することができる。この第一特徴抽出層は画像特徴抽出モデルが設置されたサブネットワークである。この画像特徴抽出モデルを介して各ビデオフレームの特徴ベクトルを順次に出力する。最後に、この各ビデオフレームの特徴ベクトルを時間配列順序に基づいて順次にスティッチングし、画像モーダルの特徴ベクトルを取得する。
本開示の実施例によれば、隣接するビデオフレームにおいて一般的に同じ特徴を有することを考慮し、正確性を保証する上で特徴抽出効率を向上させるために、ビデオフレームから一部のビデオフレームを抽出し、この一部のビデオフレームに基づいて画像モーダルの特徴ベクトルを抽出することができる。図4に示すように、この実施例400はビデオサンプル420に含まれるmフレームのビデオ画像を密集にサンプリングして、nフレームのビデオ画像で構成されたビデオフレームシーケンス430を取得することができる。その後にこのビデオフレームシーケンス430における各ビデオフレームを順次に画像特徴抽出モデルに入力する。この画像特徴抽出モデルを介して各ビデオフレームの特徴ベクトルを順次に出力し、最後に、この各ビデオフレームの特徴ベクトルを時間配列順序に基づいて順次にスティッチングし、画像モーダルの特徴ベクトルを取得する。ここで、mとnはいずれも1より大きい自然数であり、かつnはm以下である。
一実施例において、画像特徴抽出モデルは、残差ネットワーク(Residual Neural Network、ResNet)を用いて画像特徴を抽出することができる。具体的には、残差ネットワーク440を用いてビデオフレームシーケンス430における各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンス450を取得することができる。ビデオフレームシーケンス430にnフレームのビデオ画像がある場合、得られた特徴ベクトルシーケンス450にはこのnフレームのビデオ画像に一対一に対応するn個の特徴ベクトルが含まれる。この特徴ベクトルシーケンス中の各特徴ベクトルを融合することにより、画像モーダルの特徴ベクトル460を取得することができる。例えば、この画像特徴抽出モデルはRNNモデル又はシーケンス上のプーリングを用いて各ビデオフレームの特徴ベクトルを融合することができる。
例示的には、所定のサンプリングアルゴリズム410を用いてビデオサンプル420からビデオフレームを抽出することができる。所定のサンプリングアルゴリズムは例えばスパースサンプリングアルゴリズムを採用することができ、このスパースサンプリングアルゴリズムは例えばビデオをO個の時系列セグメントに均一に分割し、各セグメントが一つのフレームのビデオ画像をランダムに切断し、最後にO個の時系列セグメントから切断されたビデオ画像を組み合わせてビデオフレームシーケンスを形成することができる。このビデオフレームシーケンスにおけるビデオフレームを時系列に順次にスティッチングした後に残差ネットワークに入力する。最後に残差ネットワークから出力された特徴ベクトルをスティッチング方向にグローバルプーリングを行い、画像モーダルの特徴ベクトルを取得する。この所定のサンプリングアルゴリズムを用いてビデオフレームを抽出することにより、ビデオの時間変化による計算消費がそれに伴って増加するという問題を回避することができる。さらに、ビデオ語彙特徴が細部特徴の抽出を必要としないことを考慮し、スパースサンプリングアルゴリズムを採用する。この方法を採用すれば、ビデオセグメントの数が固定であるため、ビデオの長さに関わらず、画像モーダルの特徴抽出の計算量は固定値であり、それにより計算量がビデオ時間に伴って長くなるという問題を解決することができ、かつビデオ理解に対して、このグローバル特徴の情報量も十分である。ここで、Oは1より大きい自然数である。
本開示の実施例によれば、ディープ行為認識アーキテクチャを用いて、所定のアルゴリズムを用いてビデオフレームを抽出し、残差ネットワークを用いて特徴を抽出し、かつRNNモデル又はシーケンス上のプーリングを用いて各ビデオフレームの特徴ベクトルを融合するという全体的なフローを実現することができる。ここで、ディープ行為認識アーキテクチャは例えば時間帯ネットワーク(例えばTemporal Segment Networks、TSN)又は時間遷移モジュール(Temporal Shift Module、TSM)であってもよく、本開示はこれを限定しない。
本開示の実施例によれば、ビデオ時間が長い場合に、例えばビデオサンプルを複数のビデオセグメントに予め分割することができる。次に所定のサンプリングアルゴリズムを用いて複数のビデオセグメントの各ビデオセグメントから少なくとも一つのビデオフレームを抽出する。例えば、所定のサンプリングアルゴリズムは各ビデオセグメントをO個のサブセグメントに均一に分割し、かつO個のサブセグメントの各サブセグメントから一つのフレームのビデオ画像をランダムに切断することができる。ビデオサンプルをP個のビデオセグメントに均一に予め分割すれば、最終的にサンプリングしてP×O個のビデオフレームを得ることができる。この方式により、サンプリングされたビデオフレームが少なすぎることによりビデオを完全に表現できない状況を回避することができる。ここで、Pは1より大きい自然数である。
図5は、本開示の実施例に係るオーディオモーダルの特徴ベクトルを決定する原理概略図である。
本開示の実施例によれば、抽出されたオーディオモーダルの特徴ベクトルは例えばメル周波数ケプストラム係数であってもよい。オーディオモーダルの特徴ベクトルを抽出する場合、ビデオサンプルのオーディオデータを少なくとも二つの特徴抽出層における第三特徴抽出層の入力とすることができる。この第三特徴抽出層はオーディオ特徴抽出モデルが設置されたサブネットワークであり、それによりオーディオデータのメル周波数ケプストラム係数を取得し、このメル周波数ケプストラム係数をオーディオモーダルの特徴ベクトルとする。
図5に示すように、この実施例500において、第三特徴抽出層がメル周波数ケプストラム係数を抽出するフローは操作S510~操作S550を含むことができる。
操作S510において、ビデオサンプルのオーディオデータ501に対してオーディオフレーミング及びプリエンファシス操作を行う。ここで、オーディオデータの変化が緩やかであることを考慮し、それをスライスし、すなわちフレーミング操作を行なうことができる。フレーミングした後のオーディオデータは穏やかなランダムプロセスに近似すると見なすことができる。一般的なフレーミングの時間間隔は10~30msであってもよい。プリエンファシスの過程は高周波成分の振幅を強化するととに、高周波の共鳴ピークを強調するためのものである。
操作S520において、フレーミング、プリエンファシスを行なったオーディオデータに対して窓関数処理を行う。具体的にはフレーミングして得られた複数フレームのオーディオデータに対して窓掛け処理を行うことができる。例えばオーディオデータにハミング窓を乗算し、窓関数に対して処理を実現することができる。窓関数処理を行った後、例えばオーディオデータに対して短時間フーリエ変換を行うことにより、オーディオデータを線形周波数にマッピングすることができる。短時間フーリエ変換を行なった結果が複素数であることを考慮し、この実施例はさらに線形周波数にマッピングされたオーディオデータに対して絶対値又は二乗値を取り、線形周波数スペクトルを得ることができる。
操作S530において、得られた線形周波数スペクトルに対してメル(Mel)フィルタリングを行う。一群のMelフィルタを予め設計して線形周波数スペクトルをフィルタリングし、各Melフィルタのエネルギーを計算することができる。
操作S540において、計算して得られたMelフィルタのエネルギーにlog変換を行い、準同型変換に近似する結果を得る。
操作S550において、準同型変換に近似した結果に対して離散コサイン(Discrete Cosine Transform、DCT)変換を行い、メル周波数ケプストラム係数502を取得する。これは、時間領域信号を周波数領域に変換し、対数を取った後に時間領域に変換することにより、ケプストラムを得ることができるためである。
本開示の実施例は、メル周波数ケプストラム係数をオーディオモーダルの特徴ベクトルとすることにより、オーディオデータをよりよく表示することができる。これは、メル周波数ケプストラムの周波数帯域分割がメル目盛りで等間隔に分割され、正常な対数ケプストラムにおける線形間隔に用いられる周波数帯域よりも、聴覚システムに近似することができるためである。
図6は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法の原理概略図である。
本開示の実施例によれば、図6に示すように、この実施例600において、ビデオタグ推薦モデルをトレーニングする時、このモデルにパラメータ共有の二つのタグ特徴抽出ネットワーク(すなわち第一タグ特徴抽出ネットワーク622及び第二タグ特徴抽出ネットワーク623)を設置することができる。
ビデオタグ推薦モデルをトレーニングする場合、まずビデオサンプル611をビデオタグ推薦モデルのビデオ特徴抽出ネットワーク621に入力し、第一ビデオ特徴631を取得することができる。同様に、ポジティブサンプル612である第一タグを第一タグ特徴抽出ネットワーク622に入力し、このネットワークによって処理した後に第一特徴632を取得することができる。ネガティブサンプル613である第一タグを第二タグ特徴抽出ネットワーク623に入力し、このネットワークによって処理した後に第二特徴633を取得する。
次に、第一特徴632と第一ビデオ特徴631との間の距離を決定し、第一距離641を取得し、かつ第二特徴633と第一ビデオ特徴631との間の距離を決定し、第二距離642を取得する。ここで、第一距離と第二距離は例えばコサイン距離、ハミング距離、ユークリッド距離などの任意の距離で表すことができる。その後にこの第一距離641及び第二距離642に基づいて、所定の損失関数の値650を決定することができる。最後に逆方向伝播アルゴリズム又は勾配降下アルゴリズムにより、所定の損失関数の値650に基づいて、ビデオタグ推薦モデルをトレーニングする。
本開示の実施例によれば、所定の損失関数をトリプレット損失関数とすることを例とし、この所定の損失関数は以下の式で表すことができる:
Figure 2023535108000003
ここで、Loss(x)は損失関数の値であり、d(a,p)は第一ビデオ特徴aと第一特徴pとの間の距離であり、d(a,n)は第一ビデオ特徴aと第二特徴nとの間の距離であり、mは距離閾値である。ここで、mは実際の需要に応じて設定することができ、一般的に、このmの値は0より大きい任意の値であってもよく、この距離閾値を設定する目的は、トレーニング時に良好(特徴と第一ビデオ特徴との距離が十分に遠い)に示すネガティブサンプルを考慮せず、これにより注目させより区別しにくいサンプルペアをトレーニングし、トレーニング効率を向上させることである。
本開示の実施例によれば、トレーニング過程において、如何にしてネガティブサンプルを選択するかということがキーポイントである。一つのネガティブサンプルをランダムに選択してトレーニングすれば効果がよくない可能性があり、勾配が大きすぎるか又は勾配が小さすぎる状況を引き起こし、モデルのトレーニング効率及び安定性に大きな挑戦をもたらす。この実施例は、ビデオタグ推薦モデルをトレーニングする場合、まずポジティブサンプルである第一タグの第一特徴と第一ビデオ特徴との間の第一距離を決定することができる。この第一距離と所定値との和を目標距離とする。次にこの目標距離に基づいて所定のタグライブラリからタグを取得することにより、このタグの特徴と第一ビデオ特徴との間の距離がこの目標距離よりも大きく、それにより第二タグを取得する。ここで、所定値は0より大きい値であり、一実施例において、この所定値は前述のm値であってもよく、本開示はこれを限定しない。このネガティブサンプルの選択により、モデルのトレーニング効率を向上させ、トレーニングして得られたモデルの安定性を向上させることができる。
このように、ビデオタグ推薦モデルをトレーニングする過程において、モデル及び重みを繰り返すごとに、新しいモデルを用いてトレーニングサンプルをトラバース(Traverse)し、上記方法を用いて所定のタグライブラリから各アンカーサンプルに対して適切な一群のネガティブサンプルを見つけ、次にこの一群のネガティブサンプルから一つのネガティブサンプルをランダムに選択してポジティブサンプルとペアリングするネガティブサンプルとする。
例示的には、所定のタグライブラリは例えばリアルタイムホットスポット情報に基づいて動的に調整して更新することができ、このようにして、ビデオに決定されたタグがリアルタイムホットスポットをより正確に反映することができ、ユーザに推薦されたビデオの正確性を向上させ、ユーザ体験を向上させることに役立つ。
トレーニングを完了した後、第一タグ特徴抽出ネットワーク622及び第二タグ特徴抽出ネットワーク623のうちのいずれか一つを除去することにより、ビデオタグ推薦モデルを取得することができる。
上記ビデオタグ推薦モデルのトレーニング方法に基づいて、本開示はさらにビデオタグの決定方法を提供する。以下、図7を参照してこの方法を詳細に説明する。
図7は、本開示の実施例に係るビデオタグの決定方法のフローチャート概略図である。
図7に示すように、この実施例のビデオタグの決定方法700は操作S710~操作S730を含むことができる。
操作S710において、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを採用し、処理すべきビデオの第二ビデオ特徴を取得する。
本開示の実施例によれば、処理すべきビデオは、タグが添加されていないビデオ、すなわち前述のマークされていないビデオであってもよい。この操作S710は、前述の操作S210と類似し、ビデオタグ推薦モデルは、前述のビデオタグ推薦モデルのトレーニング方法を用いてトレーニングして得られ、ここでは説明を省略する。
操作S720において、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力として、各タグのタグ特徴を取得する。
本開示の実施例によれば、所定のタグライブラリは、前述の所定のタグライブラリと類似し、所定のタグライブラリ中のタグをシーケンス形式でタグ特徴抽出ネットワークに順次に入力することにより、タグ特徴シーケンスを取得することができる。この操作S720でタグ特徴を取得する方法は前述の操作S220における第一特徴を取得する方法と類似し、ここでは説明を省略する。
操作S730において、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとする。
この実施例は、タグ特徴シーケンスにおける各タグ特徴と第二ビデオ特徴との間の距離を計算することができる。距離が最も小さいタグ特徴に対応するタグを目標タグとする。又は、距離が小さい若干のタグ特徴に対応するタグを目標タグとすることができる。
一実施例において、所定のタグライブラリにおけるタグを処理すべきビデオとともにビデオタグ推薦モデルに入力することができ、ビデオタグ推薦モデルは各タグ特徴及び第二ビデオ特徴を取得した後、各タグ特徴と第二ビデオ特徴との間の距離を計算し、かつ距離をソートすることができる。ソート結果に基づいて、目標タグを直接出力する。又は、このビデオタグ推薦モデルは距離シーケンスを出力することにより、距離シーケンスに基づいて目標タグを決定することができる。
以上から分かるように、本開示の実施例のビデオタグの決定方法は、前述の方法を用いてトレーニングして得られたビデオタグの推薦モデルにより、所定のタグライブラリからビデオにマッチしたタグをリコールすることができる。関連技術において分類モデルによりタグ分類結果を得る技術的解決手段と比較して、所定のタグライブラリを動的に柔軟に設定することを容易にすることができ、したがってビデオタグを拡張しやすく、決定されたタグのリアルタイム性及び正確性を向上させる。
本開示の提供するビデオタグ推薦モデルのトレーニング方法に基づいて、本開示はさらにビデオタグ推薦モデルのトレーニング装置を提供する。以下、この装置について、図8を用いて詳細に説明する。
図8は本開示の実施例に係るビデオタグの推薦モデルのトレーニング装置の構造ブロック図である。
図8に示すように、この実施例のビデオタグ推薦モデルのトレーニング装置800は第一ビデオ特徴取得モジュール810、第一特徴取得モジュール820、第二特徴取得モジュール830及びモデルトレーニングモジュール840を含むことができる。ここで、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。
第一ビデオ特徴取得モジュール810はビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するために用いられる。一実施例において、第一ビデオ特徴取得モジュール810は前述の操作S210を実行するために用いられ、ここで説明を省略する。
第一特徴取得モジュール820は、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力として、第一タグの第一特徴を取得することに用いられる。一実施例において、第一特徴取得モジュール820は前述の操作S220を実行するために用いられ、ここで説明を省略する。
第二特徴取得モジュール830は、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することに用いられる。一実施例において、第二特徴取得モジュール830は前述の操作S230を実行するために用いられ、ここで説明を省略する。
モデルトレーニングモジュール840は、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングするために用いられる。一実施例において、モデルトレーニングモジュール840は前述の操作S240を実行するために用いられ、ここで説明を省略する。
本開示の実施例によれば、ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含む。上記第一ビデオ特徴取得モジュール810はベクトル取得サブモジュール及び特徴取得サブモジュールを含むことができる。ベクトル取得サブモジュールは少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得するために用いられる。特徴取得サブモジュールは、特徴融合層を用いて少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、第一ビデオ特徴を取得するために用いられる。
本開示の実施例によれば、上記特徴取得サブモジュールはベクトル変換ユニット、重み決定ユニット及び重み付け和決定ユニットを含むことができる。ベクトル変換ユニットは、少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換するために用いられる。重み決定ユニットは、アテンションメカニズムに基づいて少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みを決定するために用いられる。重み付け和決定ユニットは少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、少なくとも二つのベクトルの重み付け和を決定するために用いられる。ここで、ビデオ推薦モデルのトレーニング過程において、アテンションメカニズムのパラメータは所定の損失関数に基づいて動的に調整される。
本開示の実施例によれば、ベクトル取得サブモジュールは画像ベクトル取得ユニットを含むことができ、少なくとも二つの特徴抽出層における第一特徴抽出層を採用し、画像モーダルの特徴ベクトルを取得することに用いられる。この画像ベクトル取得ユニットはフレームシーケンス取得サブユニット、ベクトルシーケンス取得サブユニット及び特徴ベクトル融合サブユニットを含むことができる。フレームシーケンス取得サブユニットは所定のサンプリングアルゴリズムを用いてビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得するために用いられる。ベクトルシーケンス取得サブユニットは残差ネットワークを用いてビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得することに用いられる。特徴ベクトル融合サブユニットは特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、画像モーダルの特徴ベクトルを取得するために用いられる。
本開示の実施例によれば、フレームシーケンス取得サブユニットは、以下の方式で少なくとも二つのビデオフレームを抽出するために用いられる:ビデオサンプルを複数のビデオセグメントに分割し、及び所定のサンプリングアルゴリズムを用いて複数のビデオセグメント中の各ビデオセグメントからビデオフレームを抽出し、少なくとも二つのビデオフレームを取得する。
本開示の実施例によれば、ベクトル取得サブモジュールは、テキストベクトル取得ユニットを含み、以下の方式によりテキストモーダルの特徴ベクトルを取得することに用いられる:ビデオサンプルのタイトルテキストを少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、テキストモーダルの特徴ベクトルを取得する。
本開示の実施例によれば、ベクトル取得サブモジュールは、オーディオベクトル取得ユニットを含み、以下の方式によりオーディオモーダルの特徴ベクトルを取得するために用いられる:ビデオサンプルのオーディオデータを少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、オーディオデータのメル周波数ケプストラム係数を取得し、オーディオモーダルの特徴ベクトルとする。
本開示の実施例によれば、モデルトレーニングモジュール840は、距離決定サブモジュール、値決定サブモジュール及びモデルトレーニングサブモジュールを含むことができる。距離決定サブモジュールは第一特徴及び第二特徴のそれぞれと第一マルチモーダルビデオ特徴との間の距離を決定し、第一距離及び第二距離を取得するために用いられる。値決定サブモジュールは第一距離と第二距離に基づいて、所定の損失関数の値を決定するために用いられる。モデルトレーニングサブモジュールは所定の損失関数の値に基づいて、ビデオタグ推薦モデルをトレーニングするために用いられる。
本開示の実施例によれば、上記ビデオタグ推薦モデルのトレーニング装置800はさらに距離決定モジュール及びタグ取得モジュールを含むことができる。距離決定モジュールは第一特徴と第一ビデオ特徴との間の第一距離と所定値との和を決定し、目標距離を取得するために用いられる。タグ取得モジュールは目標距離に基づいて、所定のタグライブラリから第二タグを取得するために用いられる。ここで、第二タグの第二特徴と第一ビデオ特徴との間の第二距離はこの目標距離より大きい。
本開示の提供するビデオタグの決定方法に基づいて、本開示はビデオタグの決定装置をさらに提供する。以下、この装置について、図9を用いて詳細に説明する。
図9は本開示の実施例に係るビデオタグの決定装置の構造ブロック図である。
図9に示すように、この実施例のビデオタグの決定装置900は第二ビデオ特徴取得モジュール910、タグ特徴取得モジュール920及びタグ決定モジュール930を含むことができる。
第二ビデオ特徴取得モジュール910はビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するために用いられる。ここで、ビデオタグ推薦モデルは前述のビデオタグ推薦モデルのトレーニング装置を用いてトレーニングして得られる。一実施例において、第二ビデオ特徴取得モジュール910は前述の操作S710を実行するために用いられて、ここで説明を省略する。
タグ特徴取得モジュール920は所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力として、各タグのタグ特徴を取得することに用いられる。一実施例において、タグ特徴取得モジュール920は前述の操作S720を実行するために用いられ、ここで説明を省略する。
タグ決定モジュール930は各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとするために用いられる。一実施例において、タグ決定モジュール930は前述の操作S730を実行するために用いられ、ここで説明を省略する。
説明すべきものとして、本開示の技術的解決手段において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。
本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。
図10は、本開示の実施例のビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法を実施することが可能な電子機器1000の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び/又は要求された本開示の実現を限定するものではない。
図10に示すように、機器1000は、リードオンリーメモリ(ROM)1002に記憶されたコンピュータプログラム又は記憶ユニット1008からランダムアクセスメモリ(RAM)1003にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する計算ユニット1001を含んでもよい。RAM1003には、さらに記憶機器1000の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット1001、ROM1002、およびRAM1003は、バス1004により相互に接続されている。バス1004には、入出力(I/O)インタフェース1005も接続されている。
機器1000における複数の部品は、I/Oインタフェース1005に接続され、例えばキーボード、マウスなどの入力ユニット1006と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット1007と、例えば磁気ディスク、光ディスクなどの記憶ユニット1008と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット1009とを含む。通信ユニット1009は、機器1000がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報/データをやり取りすることを可能にする。
計算ユニット1001は、各種の処理、演算能力を有する汎用及び/又は専用の処理モジュールであってもよい。計算ユニット1001としては、中央処理ユニット(CPU)、グラフィックス・プロセッシング・ユニット(GPU)、各種専用の人工知能(AI)演算チップ、各種機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号機(DSP)、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット1001は、上記説明した各方法及びステップを実行し、例えば、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法である。例えば、いくつかの実施例において、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット1008に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はROM 1002及び/又は通信ユニット1009を介して装置1000にロード及び/又はインストールされる。コンピュータプログラムがRAM 1003にロードされかつ計算ユニット1001により実行される場合、上記のビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット1001は他の任意の適切な方式(例えば、ファームウェア)によりビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法を実行するように構成されてもよい。
本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ(FPGA)、専用集積回路(ASIC)、専用標準製品(ASSP)、チップ上システムのシステム(SOC)、負荷プログラマブルロジック装置(CPLD)、コンピュータハードウェア、ファームウェア、ソフトウェア、及び/又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び/又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。
本開示の方法を実施するためのプログラムコードは、1つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び/又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。
本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、1つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、消去可能なプログラマブルリードオンリーメモリ(EPROM又はフラッシュメモリ)、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ(CD-ROM)、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。
ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置(例えば、CRT(陰極線管)又はLCD(液晶ディスプレイ)モニタ)と、キーボード及びポインティングデバイス(例えば、マウス又はトラックボール)とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック(例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック)であってもよく、かついかなる形式(音声入力、語音入力又は、触覚入力を含む)でユーザからの入力を受信してもよい。
ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム(例えば、データサーバとする)、又はミドルウェア部品を含むコンピューティングシステム(例えば、アプリケーションサーバ)、又はフロントエンド部品を含むコンピューティングシステム(例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる)、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信(例えば、通信ネットワーク)によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)及びインターネットを例示的に含む。
コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント-サーバの関係を有するコンピュータプログラムによって生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、それにより従来の物理ホストとVPSサービス(「Virtual Private Server」、又は「VPS」と略称する)において、管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分布式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。
理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。
上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。
本発明は、モデルの柔軟性を向上させるビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。
本開示の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される時に本開示に記載のビデオタグ推薦モデルのトレーニング方法及び/又はビデオタグの決定方法を実現する。
本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。

Claims (23)

  1. ビデオタグ推薦モデルのトレーニング方法であって、
    ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、
    前記方法は、
    前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、
    ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得することと、
    ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得することと、
    前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
    ビデオタグ推薦モデルのトレーニング方法。
  2. 前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
    前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することは、
    前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することと、
    前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得することと、を含む
    請求項1に記載の方法。
  3. 前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行うことは、
    前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換することと、
    アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに決定することと、
    前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定することと、を含み、
    ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
    請求項2に記載の方法。
  4. それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
    前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、以下のことにより画像モーダルの特徴ベクトルを取得することを含み、
    所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得し、
    残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得し、
    前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得する、
    請求項2又は3に記載の方法。
  5. 所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出することは、
    前記ビデオサンプルを複数のビデオセグメントに分割することと、
    前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得することと、を含む
    請求項4に記載の方法。
  6. それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
    以下の方式によりテキストモーダルの特徴ベクトルを取得することを含み、
    前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
    請求項2~5のいずれか一項に記載の方法。
  7. それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
    以下の方式によりオーディオモーダルの特徴ベクトルを取得することを含む:
    前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
    請求項2~5のいずれか一項に記載の方法。
  8. 前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることは、
    前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離と第二距離を取得することと、
    前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定することと、
    前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
    請求項1に記載の方法。
  9. 前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得することと、
    前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得することと、をさらに含み、
    ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
    請求項1に記載の方法。
  10. ビデオタグを決定する方法であって、
    ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得することと、
    所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得することと、
    前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとすることと、を含み、
    ここで、前記ビデオタグ推薦モデルは、請求項1~9のいずれか一項に記載の方法を用いてトレーニングして得られる
    ビデオタグの決定方法。
  11. ビデオタグ推薦モデルのトレーニング装置であって、
    前記ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、前記装置は、
    前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するための第一ビデオ特徴取得モジュールと、
    ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得するための第一特徴取得モジュールと、
    ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得するための第二特徴取得モジュールと、
    前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
    ビデオタグ推薦モデルのトレーニング装置。
  12. 前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
    前記第一ビデオ特徴取得モジュールは、
    前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得するためのベクトル取得サブモジュールと、
    前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得するための特徴取得サブモジュールと、を含む
    請求項10に記載の装置。
  13. 前記特徴取得サブモジュールは、
    前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換するためのベクトル変換ユニットと、
    アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みを決定するための重み決定ユニットと、
    前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定するための重み付け和決定ユニットと、を含み、
    ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
    請求項12に記載の装置。
  14. 前記ベクトル取得サブモジュールは、
    前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、画像モーダルの特徴ベクトルを取得するための画像ベクトル取得ユニットを含み、
    前記画像ベクトル取得ユニットは、
    所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得するためのフレームシーケンス取得サブユニットと、
    残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得するためのベクトルシーケンス取得サブユニットと、
    前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得するための特徴ベクトル融合サブユニットと、を含む
    請求項12又は13に記載の装置。
  15. 前記フレームシーケンス取得サブユニットは、以下の方式により前記少なくとも二つのビデオフレームを抽出するために用いられ、
    前記ビデオサンプルを複数のビデオセグメントに分割し、
    前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントのうちの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得する
    請求項14に記載の装置。
  16. 前記ベクトル取得サブモジュールは、
    以下の方式によりテキストモーダルの特徴ベクトルを取得するためのテキストベクトル取得ユニットを含み、
    前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
    請求項12~15のいずれか一項に記載の装置。
  17. 前記ベクトル取得サブモジュールは、
    以下の方式によりオーディオモーダルの特徴ベクトルを取得するためのオーディオベクトル取得ユニットを含み、
    前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
    請求項12~15のいずれか一項に記載の装置。
  18. 前記モデルトレーニングモジュールは、
    前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離及び第二距離を取得するための距離決定サブモジュールと、
    前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定するための値決定サブモジュールと、
    前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングサブモジュールと、を含む
    請求項11に記載の装置。
  19. 前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得するための距離決定モジュールと、
    前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得するためのタグ取得モジュールと、をさらに含み、
    ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
    請求項11に記載の装置。
  20. ビデオタグを決定する装置であって、
    ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するための第二ビデオ特徴取得モジュールと、
    所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得するためのタグ特徴取得モジュールと、
    前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとするタグ決定モジュールと、を含み、
    ここで、前記ビデオタグ推薦モデルは請求項11~19のいずれか一項に記載の装置を用いてトレーニングして得られる
    ビデオタグの決定装置。
  21. 電子機器であって、
    少なくとも一つのプロセッサと、
    前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
    前記メモリには前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサが請求項1~10のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
    電子機器。
  22. コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
    前記コンピュータ命令は前記コンピュータに請求項1~10のいずれか一項に記載の方法を実行させる
    コンピュータ可読記憶媒体。
  23. プロセッサにより実行される時に請求項1~10のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
    コンピュータプログラム製品。
JP2022564826A 2021-07-01 2022-05-31 ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム Pending JP2023535108A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN202110754370.4A CN113378784B (zh) 2021-07-01 2021-07-01 视频标签推荐模型的训练方法和确定视频标签的方法
CN202110754370.4 2021-07-01
PCT/CN2022/096229 WO2023273769A1 (zh) 2021-07-01 2022-05-31 视频标签推荐模型的训练方法和确定视频标签的方法

Publications (1)

Publication Number Publication Date
JP2023535108A true JP2023535108A (ja) 2023-08-16

Family

ID=84237960

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022564826A Pending JP2023535108A (ja) 2021-07-01 2022-05-31 ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム

Country Status (3)

Country Link
EP (1) EP4134921A4 (ja)
JP (1) JP2023535108A (ja)
KR (1) KR20220153088A (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116308960B (zh) * 2023-03-27 2023-11-21 杭州绿城信息技术有限公司 基于数据分析的智慧园区物业防控管理系统及其实现方法
CN116843998B (zh) * 2023-08-29 2023-11-14 四川省分析测试服务中心 一种光谱样本加权方法及系统
CN117726721B (zh) * 2024-02-08 2024-04-30 湖南君安科技有限公司 基于主题驱动与多模态融合的图像生成方法、设备及介质

Also Published As

Publication number Publication date
EP4134921A4 (en) 2023-11-01
KR20220153088A (ko) 2022-11-17
EP4134921A1 (en) 2023-02-15

Similar Documents

Publication Publication Date Title
WO2023273769A1 (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
US20220335711A1 (en) Method for generating pre-trained model, electronic device and storage medium
CN111062871B (zh) 一种图像处理方法、装置、计算机设备及可读存储介质
TWI737006B (zh) 一種跨模態訊息檢索方法、裝置和儲存介質
JP2022510704A (ja) クロスモーダル情報検索方法、装置及び記憶媒体
JP2022058915A (ja) 画像認識モデルをトレーニングするための方法および装置、画像を認識するための方法および装置、電子機器、記憶媒体、並びにコンピュータプログラム
US10885344B2 (en) Method and apparatus for generating video
CN111488489B (zh) 视频文件的分类方法、装置、介质及电子设备
JP2023535108A (ja) ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム
CN112559800B (zh) 用于处理视频的方法、装置、电子设备、介质和产品
CN109657054A (zh) 摘要生成方法、装置、服务器及存储介质
CN109660865B (zh) 为视频自动打视频标签的方法及装置、介质和电子设备
WO2022188644A1 (zh) 词权重的生成方法、装置、设备及介质
CN113806588B (zh) 搜索视频的方法和装置
CN109582825B (zh) 用于生成信息的方法和装置
CN114861889B (zh) 深度学习模型的训练方法、目标对象检测方法和装置
JP7355865B2 (ja) ビデオ処理方法、装置、デバイスおよび記憶媒体
CN111046757B (zh) 人脸画像生成模型的训练方法、装置及相关设备
CN110263218B (zh) 视频描述文本生成方法、装置、设备和介质
US20240177506A1 (en) Method and Apparatus for Generating Captioning Device, and Method and Apparatus for Outputting Caption
WO2023197749A1 (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN111859973B (zh) 用于生成解说词的方法和装置
CN114363695B (zh) 视频处理方法、装置、计算机设备和存储介质
CN117056728A (zh) 一种时间序列生成方法、装置、设备和存储介质
CN115909357A (zh) 基于人工智能的目标识别方法、模型训练方法和装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221025

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20221025

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231003

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20231225

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20240213