JP2023535108A

JP2023535108A - ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、それらの装置、電子機器、記憶媒体及びコンピュータプログラム

Info

Publication number: JP2023535108A
Application number: JP2022564826A
Authority: JP
Inventors: ▲ヂー▼ 叶; ▲シン▼ 唐; 賀偉王; 利葛
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2021-07-01
Filing date: 2022-05-31
Publication date: 2023-08-16
Also published as: EP4134921A4; KR20220153088A; EP4134921A1

Abstract

本開示は、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供し、人工知能技術分野に適用され、具体的には音声認識、自然言語処理、コンピュータビジョン及びインテリジェント推薦技術分野に適用される。そのうち、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。このビデオタグ推薦モデルのトレーニング方法は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得することと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングすることと、を含む。

Description

本願は、２０２１年７月０１日に提出された中国特許出願Ｎｏ．２０２１１０７５４３７０.４の優先権を要求し、その内容は併せてここを参考にする。

本開示は、人工知能技術分野に関し、具体的には音声認識、自然言語処理、コンピュータビジョン及びインテリジェント推薦技術分野に関し、より具体的にはビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器及び記憶媒体に関する。

コンピュータ技術及びネットワーク技術の発展に伴い、ビデオが情報の伝播キャリアとして十分に発展している。ユーザに効率的なビデオ検索及びビデオ推薦等のサービスを提供するために、通常、ビデオにタグを添加する必要がある。

関連技術において、主に教師あり学習に依存してビデオを分類する。教師あり学習は、通常、マークされた大量のデータに依存する。ビデオを分類することによりタグを決定する技術的解決手段において、通常、タグ体系を予め定義する必要がある。タグ体系がリアルタイム需要に応じて調整されると、分類モデルを再度にトレーニングする必要がある。

本発明は、モデルの柔軟性を向上させるビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、機器及び記憶媒体を提供する。

本開示の一態様によれば、ビデオタグ推薦モデルのトレーニング方法を提供し、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、この方法は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得することと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングすることと、を含む。

本開示の別の態様によれば、ビデオタグの決定方法を提供し、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得することと、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、各タグのタグ特徴を取得することと、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとすることと、を含み、ここで、ビデオタグ推薦モデルは、上記したビデオに対するビデオタグ推薦モデルのトレーニング方法を用いてトレーニングして得られる。

本開示の別の態様によれば、ビデオタグ推薦モデルのトレーニング装置を提供し、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、この装置は、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するための第一ビデオ特徴取得モジュールと、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得するための第一特徴取得モジュールと、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得するための第二特徴取得モジュールと、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングモジュールと、を含む。

本開示の別の態様によれば、ビデオタグの決定装置を提供し、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するための第二ビデオ特徴取得モジュールと、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、各タグのタグ特徴を取得するためのタグ特徴取得モジュールと、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとするタグ決定モジュールと、を含み、ここで、ビデオタグ推薦モデルは上記したビデオタグ推薦モデルのトレーニング装置を用いてトレーニングして得られる。

本開示の別の態様によれば、電子機器を提供し、少なくとも一つのプロセッサと、少なくとも一つのプロセッサと通信接続されたメモリとを含み、メモリには少なくとも一つのプロセッサにより実行可能な命令が記憶され、命令は、少なくとも一つのプロセッサが本開示に記載のビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法を実行することができるように、少なくとも一つのプロセッサにより実行される。

本開示の別の態様によれば、コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体を提供し、コンピュータ命令はコンピュータに本開示に記載のビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法を実行させる。

本開示の別の態様によれば、コンピュータプログラム製品を提供し、プロセッサにより実行される時に本開示に記載のビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法を実現するコンピュータプログラムを含む。

理解すべきこととして、本部分に記載された内容は本開示の実施例のキー又は重要な特徴を識別することを意図するものではなく、本開示の範囲を限定するものではない。本開示の他の特徴は、以下の説明により容易に理解されるであろう。

図面は、本解決手段をよりよく理解するために用いられ、本開示を限定するものではない。

図１は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置の応用シーン概略図である。図２は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法のフローチャート概略図である。図３は、本開示の実施例に係るビデオサンプルの第一ビデオ特徴を取得する原理概略図である。図４は、本開示の実施例に係るビデオモーダルの特徴ベクトルを決定する原理概略図である。図５は、本開示の実施例に係るオーディオモーダルの特徴ベクトルを決定する原理概略図である。図６は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法の原理概略図である。図７は、本開示の実施例に係るビデオタグを決定する方法のフローチャート概略図である。図８は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング装置の構造ブロック図である。図９は、本開示の実施例に係るビデオタグを決定する装置の構造ブロック図である。図１０は、本開示の実施例のビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法を実施するための電子機器のブロック図である。

以下、図面を参照して本開示の例示的な実施例を説明し、ここで本開示の実施例の様々な詳細を含み理解することに役立ち、それらを例示的なものと考えるべきである。したがって、当業者であれば分かるように、ここで説明した実施例に対して様々な変更及び修正を行うことができ、本開示の範囲及び精神から逸脱することはない。同様に、明確かつ簡単に説明するために、以下の説明において公知の機能及び構造に対する説明を省略する。

本開示は、ビデオタグ推薦モデルのトレーニング方法を提供し、そのうち、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。トレーニング方法は融合特徴取得段階、タグ特徴取得段階及びモデルトレーニング段階を含む。融合特徴取得段階において、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得する。タグ特徴取得段階において、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得する；かつネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得する。モデルトレーニング段階において、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングする。

以下に図１を参照して本開示の提供する方法及び装置の応用シーンを説明する。
図１は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置の応用シーン概略図である。

図１に示すように、この実施例のシーン１００はサーバ１１０、第一データベース１２０及び第二データベース１３０を含む。サーバ１１０は例えばネットワークを介して第一データベース１２０及び第二データベース１３０にアクセスすることができ、ネットワークは有線又は無線通信リンクを含むことができる。

第一データベース１２０は例えばタグライブラリであってもよく、このタグライブラリに複数のタグがメンテナンスされる。このタグライブラリにおけるタグは、例えば、実際の需要に応じて動的に調整することができる。例えば、この複数のタグはリアルタイム情報ホットスポットから抽出された複数のキーワード等を指示することができる。サーバ１１０はこの第一データベース１２０にアクセスすることにより、第一データベース１２０からタグ１４０を取得することができる。

第二データベース１３０は例えばビデオライブラリであってもよく、このビデオライブラリに複数のビデオがメンテナンスされ、この複数のビデオにマークされたビデオとマークされていないビデオが含まれてもよい。ここで、マークされたビデオとは、タグを有するビデオを指す。サーバ１１０は例えば第二データベース１３０からマークされていないビデオ１５０を読み取り、かつこのマークされていないビデオ１５０に基づいて第一データベース１２０からマッチングされたタグを選択し、このマッチングされたタグによってこのマークされていないビデオ１５０をマークし、マークされたビデオ１６０を取得することができる。このサーバ１１０はさらにマークされたビデオ１６０を第二データベース１３０に記憶することができる。

一実施例において、第一データベース１２０と第二データベース１３０は例えば同じデータベース内の異なる記憶領域であってもよい。第二データベース１３０には例えば少なくとも二つの互いに独立した記憶空間を有することができ、それによりそれぞれマークされていないビデオ及びマークされたビデオを記憶するために用いられる。

一実施例において、図１に示すように、この応用シーン１００はさらに端末装置１７０を含むことができ、この端末装置１７０はネットワークを介してサーバ１１０と対話することができ、この端末装置１７０は例えばネットワークを介して第二データベース１３０にアクセスすることにより、生成されたビデオをマークされていないビデオとして第二データベース１３０に記憶する。

本開示の実施例によれば、端末装置１７０は、サーバ１１０との対話により、例えばサーバ１１０にビデオ取得要求を送信することができる。サーバ１１０は例えばこのビデオ取得要求に応答して第二データベース１３０中のマークされたビデオからマッチングされたビデオを取得し、かつこのマッチングされたビデオを端末装置１７０にフィードバックすることにより、端末装置１７０に表示及び再生を行うことができる。

例示的には、端末装置１７０は例えばディスプレイを有するデスクトップコンピュータ、ラップトップ型携帯コンピュータ、タブレットコンピュータ、スマートフォン、スマートウォッチ等の電子機器であってもよく、この端末装置１７０に様々なクライアントアプリケーションがインストールされてもよい。サーバ１１０は例えばビデオ再生類アプリケーションの実行をサポートする任意のサーバであってもよく、例えば分散式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

説明すべきものとして、本開示の実施例が提供するビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法は一般的にサーバ１１０により実行されてもよく、又はサーバ１１０と通信接続された他のサーバによって実行されてもよい。本開示の実施例が提供するビデオタグ推薦モデルのトレーニング装置及び／又はビデオタグの決定装置はサーバ１１０に設置されてもよく、又はサーバ１１０と通信接続された他のサーバに設置されてもよい。

理解すべきものとして、図１におけるサーバ、データベース及び端末装置の数及びタイプは単に例示的である。実現需要に応じて、任意のデータ及びタイプのサーバ、データベース及び端末装置を有することができる。

以下に図１を参照し、以下の図２～図６により本開示が提供するビデオタグ推薦モデルのトレーニング方法を詳細に説明する。

図２に示すように、この実施例のビデオタグ推薦モデルのトレーニング方法２００は操作Ｓ２１０～操作Ｓ２４０を含むことができる。

本開示の実施例によれば、このビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを有することができる。ここで、ビデオ特徴抽出ネットワークは画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルのうちの少なくとも一つを用いてビデオの特徴を抽出することができ、タグ特徴抽出ネットワークはテキスト特徴抽出モデルを用いてタグの特徴を抽出することができる。

操作Ｓ２１０において、ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得する。

本開示の実施例によれば、ビデオ特徴抽出ネットワークには前述の画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルのうちの少なくとも一つのモデルが設定されることができ、それによりビデオサンプルの特徴を抽出するために用いられる。

一実施例において、ビデオ特徴抽出ネットワークに少なくとも二つの特徴抽出層が設置されてもよく、この少なくとも二つの特徴抽出層にそれぞれ異なるモーダルの特徴抽出モデルが設置される。ビデオサンプルの第一ビデオ特徴を取得する場合、まずこの少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することができる。次にこの少なくとも二つのモーダルの特徴を融合し、第一ビデオ特徴を得て、すなわちこの第一ビデオ特徴はマルチモーダル特徴を融合したことにより得られた融合特徴である。

ここで、ビデオサンプルには、複数のビデオフレーム、各ビデオフレームに対応するオーディオデータ、各ビデオフレームに対応する字幕テキストデータ及びビデオのタイトルテキストデータなどを含むことができる。画像特徴抽出モデルは複数のビデオフレームに基づいて特徴を抽出することができ、オーディオ特徴抽出モデルはオーディオデータに基づいて特徴を抽出することができ、テキスト特徴抽出モデルは字幕テキストデータ及び／又はタイトルテキストデータなどに基づいて特徴を抽出することができる。

ここで、画像特徴抽出モデルは例えば畳み込みニューラルネットワークモデル、マルコフランダムフィールドモデル等であってもよく、抽出された特徴は、色特徴、形状特徴及びテクスチャ特徴等のうちの少なくとも一つを含むことができる。オーディオ特徴抽出モデルは例えばオーディオに対して、短時間フーリエ変換、離散コサイン変換、離散ウェーブレット変換、メル周波数スペクトル及びメル周波数ケプストラム、定Ｑ変換などのうちの少なくとも一種を行うことができ、それによりオーディオ特徴を抽出して取得する。テキスト特徴抽出モデルは、例えば、単語袋モデル（Bag-of-words model）、ＴＦ－ＩＤＦモデル、ディープラーニングモデル等であってもよい。ここで、ディープラーニングモデルは畳み込みニューラルネットワーク、循環ニューラルネットワークなどであってもよい。理解できるように、上記画像特徴抽出モデル、オーディオ特徴抽出モデル及びテキスト特徴抽出モデルは例として本開示を理解することに役立ち、本開示はこれを限定しない。

ビデオ特徴抽出ネットワークは例えば特徴融合層を含むことができ、少なくとも二つのモーダルの特徴を取得した後、この特徴融合層はこの少なくとも二つのモーダルの特徴に対してスティッチング（

stitching）、加算又は乗算などの操作を実行することにより、この少なくとも二つのモーダルの特徴の融合を実現する。

本開示の実施例によれば、融合を容易にするために、この実施例におけるビデオ特徴抽出ネットワークは例えば少なくとも二つの特徴抽出層と一対一に対応する完全接続層を含み、この完全接続層は特徴抽出層と特徴融合層との間に挟まれることにより、少なくとも二つのモーダルの特徴のサイズを変換する。それに応じて、特徴融合層は完全接続層を介して変換された特徴を融合するために用いられる。

操作Ｓ２２０において、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力とし、第一タグの第一特徴を取得する。

本開示の実施例によれば、タグ特徴抽出ネットワークには例えばテキスト特徴抽出モデルが設定されることができ、テキスト形式のタグの特徴を抽出することに用いられる。このテキスト特徴抽出モデルは前述のビデオ特徴抽出ネットワークにおけるテキスト特徴抽出モデルと類似する。又は、このタグ特徴抽出ネットワークにおけるテキスト特徴抽出モデルはショートテキスト特徴を抽出するためのモデル（例えばＬＳＴＭモデル、ＢＥＲＴモデル等）であってもよく、ビデオ特徴抽出ネットワークにおけるテキスト特徴抽出モデルはロングテキスト特徴を抽出するためのモデル（例えばＢＥＲＴ＋ＬＳＴＭモデル、ＴＦ－ＩＤＦモデル等）であってもよい。

この実施例は第一タグをこのタグ特徴抽出ネットワークに入力し、このタグ特徴抽出ネットワークを介して処理した後にこの第一特徴を出力することができる。

ここで、ポジティブサンプルである第一タグは、ビデオサンプルにマッチングするタグであってもよい。例えば、このビデオサンプルが体育試合ビデオであれば、この第一タグは「体育」であってもよい。この第一タグは経験に基づいて設定されてもよく、ビデオのタイトルとの間の類似度などに基づいて設定されてもよい。例えば、ビデオのタイトルとの類似度が０.９より大きいタグをポジティブサンプルとして選択することができる。理解できるように、前述の０.９は例示として本開示を理解することに役立ち、本開示はこれを限定しない。

操作Ｓ２３０において、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得する。

この操作Ｓ２３０は前述の操作Ｓ２２０と類似し、第二タグをこのタグ特徴抽出ネットワークに入力し、このタグ特徴抽出ネットワークによって処理した後にこの第二特徴を出力することができる。ここで、ネガティブサンプルである第一タグはビデオサンプルにマッチングしないタグであってもよい。例えば、このビデオサンプルが体育試合ビデオであれば、この第二タグは「バラエティ」等であってもよい。この第二タグは経験に基づいて設定されてもよく、ビデオのタイトルとの間の類似度などに基づいて設定されてもよい。例えば、ビデオのタイトルとの類似度が０.５未満のタグをネガティブサンプルとして選択することができる。理解できるように、前述の０.５は単に例示として本開示を理解することに役立ち、本開示はこれを限定しない。

理解できるように、操作Ｓ２３０は例えば操作Ｓ２２０の後に実行されてもよく、操作Ｓ２３０の前に実行されてもよい。又は、トレーニング効率を向上させるために、トレーニング時に、さらにビデオタグ推薦モデルに二つのパラメータ共有のタグ特徴抽出ネットワークを設定することができ、この二つのネットワークはそれぞれ第一タグの第一特徴及び第二タグの第二特徴を取得するために用いられる。トレーニングが完了した後、この二つのネットワークのうちの一つのネットワークのみを保留して予測に用いられる。

操作Ｓ２４０において、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングする。

本開示の実施例によれば、まず第一ビデオ特徴、第一特徴及び第二特徴に基づいて所定の損失関数の値を決定することができる。次にこの所定の損失関数の値、逆方向伝播アルゴリズム又は勾配降下アルゴリズムに基づいてビデオタグ推薦モデルにおける各ネットワークモデルのパラメータを調整する。このビデオタグの推薦モデルに対するトレーニングにより、第一ビデオ特徴を第一特徴により近づけるとともに、第二特徴から離れるようにすることができる。このように予測する場合、トレーニングされたビデオタグ推薦モデルにより、タグライブラリからビデオによりマッチングするタグを選択することができる。

本開示の実施例によれば、ビデオサンプル、ポジティブサンプル及びネガティブサンプルはトリプレットサンプルペアを構成することができ、所定の損失関数はトリプレット損失（Ｔｒｉｐｌｅｔｌｏｓｓ）関数であってもよい。それに応じて、後に説明する方法を用いて損失関数の値を決定することができ、ここで詳述しない。理解できるように、この所定の損失関数のタイプは例として本開示を理解することに役立ち、この所定の損失関数の値が第一ビデオ特徴と第一特徴との間の距離と正の相関すれば、第一ビデオ特徴と第二特徴との間の距離と負の相関すればよい。

総合的に分析し、本開示の実施例は、ビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを有するビデオタグ推薦モデルを設定し、かつポジティブサンプルの特徴及びネガティブサンプルの特徴に基づいてビデオタグ推薦モデルをトレーニングし、ビデオ特徴とタグ特徴との間の関連関係を学習することができる。トレーニング時に、ビデオサンプルに対するマークの正確性に依存する必要がなく、タグを明確に定義する必要がなく、タグ間の記述粒度等に注意する必要もない。さらに、ビデオサンプルのマルチモーダル融合特徴を抽出するビデオタグ推薦モデルを構築することにより、抽出されたビデオ特徴の汎化能力をより強くすることができ、ビデオをより正確に表現することができる。全体的に言えば、この実施例のトレーニング方法によりトレーニングして得られたビデオタグ推薦モデルは、より高い柔軟性及び正確性を有し、特にテーマの注目点の変換が速いシーンに適用され、ビデオタグを効率的に決定することができる。

図３は、本開示の実施例に係るビデオサンプルの第一ビデオ特徴を取得する原理概略図である。

本開示の実施例によれば、前記ビデオ特徴抽出ネットワークは、少なくとも二つのサブネットワーク及びこの少なくとも二つのサブネットワークを接続する特徴融合層を有し、各サブネットワークに一つの特徴抽出層が設置される。第一ビデオ特徴を取得する場合、少なくとも二つのサブネットワークに設定された少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することができる。具体的にはビデオサンプルを少なくとも二つの特徴抽出層における各層の入力として、この少なくとも二つの特徴抽出層を介して処理した後、それぞれ一つの特徴ベクトルを出力することができる。次に特徴融合層を用いて少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、第一ビデオ特徴を取得する。具体的にはこの少なくとも二つの特徴抽出層が出力した特徴ベクトルを特徴融合層の入力とし、特徴融合層における学習された重み値に基づいて少なくとも二つのモーダルの特徴ベクトルに対して重み付け加算を行うことができる。

例示的に、重み付け融合の前に、この実施例はまず少なくとも二つの特徴ベクトルを同じ大きさのベクトルに変換することができる。それに応じて、このビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層の後にそれぞれ完全接続層を添加することができ、各特徴抽出層が出力した特徴ベクトルをこの各特徴抽出層に接続された完全接続層の入力とし、この完全接続層の出力を特徴融合層の入力とする。

例示的に、特徴融合層は例えば混合エキスパートシステム（ＭｉｘｔｕｒｅｏｆＥｘｐｅｒｔｓ、ＭｏＥ）を用いて少なくとも二つのモーダルの特徴ベクトルに対して重み付け融合を行うことができる。具体的な実現過程は以下のとおりである：まず少なくとも二つの特徴ベクトルの次元を統一次元に圧縮し、次にアテンションメカニズム（ａｔｔｅｎｔｉｏｎ）に基づいて少なくとも二つの特徴ベクトルのそれぞれの重みを割り当て、最後に割り当てられた重みに基づいて、重み付け加算を行う。ビデオタグ推薦モデルをトレーニングする時、この混合エキスパートシステムにおけるアテンションメカニズムのパラメータを同時に調整することができる。この方式により、各モーダル特徴の比重を柔軟に調整することができ、それにより得られたビデオ特徴はビデオをよりよく表現することができる。

ここで、少なくとも二つのモーダルは、例えば二つのモーダル又はより多くのモーダルであってもよい。図３に示すように、この実施例３００において、少なくとも二つのモーダルは画像モーダル、オーディオモーダル及びテキストモーダルを含むことができる。具体的には、アンカーサンプルとしてのビデオ３１０における画像３１１、オーディオ３１２及びテキスト３１３をそれぞれ画像特徴抽出モデル３２１、オーディオ特徴抽出モデル３２２及びテキスト特徴抽出モデル３２３の入力とすることができる。画像特徴抽出モデル３２１は画像３１１を処理した後、画像特徴３３１を出力することができる。オーディオ特徴抽出モデル３２２はオーディオ３１２を処理した後、オーディオ特徴３３２を出力することができる。テキスト特徴抽出モデル３２３はテキスト３１３を処理した後、テキスト特徴３３３を出力することができる。この画像特徴３３１、オーディオ特徴３３２、テキスト特徴３３３は、特徴融合層３４０の入力とされる。特徴融合層３４０に採用される混合エキスパートシステムは画像特徴抽出モデル３２１、オーディオ特徴抽出モデル３２２及びテキスト特徴抽出モデル３２３中の各モデルをエキスパートモデル（Ｅｘｐｅｒｔｍｏｄｅｌ）と呼び、次に各エキスパートモデルが生成した結果に対して重み付け総合を行い、すなわちＧａｔｅメカニズムに基づいて、各エキスパートモデルに異なる重みを学習する。このＧａｔｅメカニズムはどのエキスパートモデルを使用するかを選択するために用いられ、この特徴融合層３４０の実際の出力は各モデルの出力とＧａｔｅメカニズム学習の重みとの組み合わせであり、この組み合わせは第一ビデオ特徴３５０である。ここで、ビデオタグ推薦モデルをトレーニングする時、異なるエキスパートモデルパラメータの最適化の損失はｇａｔｅメカニズムにより制御され、すなわち異なるエキスパートモデルに対する異なる目標の損失は異なる。

本開示の実施例によれば、テキストモーダルの特徴ベクトルを抽出する場合、ビデオサンプル中のテキストデータを少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、この第二特徴抽出層によりテキストモーダルの特徴ベクトルを出力することができる。ここで、第二特徴抽出層はテキスト特徴抽出モデルが設置されたサブネットワークである。

例示的には、ＢＥＲＴモデル又はＥＲＮＩＥモデルをテキスト特徴抽出モデルとして採用することができる。この実施例は、テキストデータを[ｃｌｓ] ｔｏｋｅｎ対応特徴を有するセンテンスベクトルに変換することができる。このセンテンスベクトルをＢＥＲＴモデル又はＥＲＮＩＥモデルに入力することにより、このＢＥＲＴモデル又はＥＲＮＩＥモデルによって処理した後にテキスト特徴を出力して得られる。

例示的には、ビデオサンプル中のタイトルテキストを第二特徴抽出層の出力としてテキストモーダルの特徴ベクトルを取得することができる。これは字幕データに基づいて取得された特徴ノイズが多く、データが高く冗長であるためである。この実施例の方法により、特徴モデリング効果を向上させ、抽出されたテキスト特徴の正確性を向上させることができる。

以下では図４～図５を参照して画像特徴抽出モデル３２１により画像モーダルの特徴ベクトルを取得する原理及びオーディオ特徴抽出モデル３２２によりオーディオモーダルの特徴ベクトルを取得する原理をそれぞれ詳細に説明する。

図４は、本開示の実施例に係る画像モーダルの特徴ベクトルを決定する原理概略図である。

本開示の実施例によれば、画像特徴抽出モデルを用いて画像モーダルの特徴ベクトルを取得する場合、ビデオサンプル中の各ビデオフレームを時間配列順序に基づいて少なくとも二つの特徴抽出層における第一特徴抽出層を順次に入力することができる。この第一特徴抽出層は画像特徴抽出モデルが設置されたサブネットワークである。この画像特徴抽出モデルを介して各ビデオフレームの特徴ベクトルを順次に出力する。最後に、この各ビデオフレームの特徴ベクトルを時間配列順序に基づいて順次にスティッチングし、画像モーダルの特徴ベクトルを取得する。

本開示の実施例によれば、隣接するビデオフレームにおいて一般的に同じ特徴を有することを考慮し、正確性を保証する上で特徴抽出効率を向上させるために、ビデオフレームから一部のビデオフレームを抽出し、この一部のビデオフレームに基づいて画像モーダルの特徴ベクトルを抽出することができる。図４に示すように、この実施例４００はビデオサンプル４２０に含まれるｍフレームのビデオ画像を密集にサンプリングして、ｎフレームのビデオ画像で構成されたビデオフレームシーケンス４３０を取得することができる。その後にこのビデオフレームシーケンス４３０における各ビデオフレームを順次に画像特徴抽出モデルに入力する。この画像特徴抽出モデルを介して各ビデオフレームの特徴ベクトルを順次に出力し、最後に、この各ビデオフレームの特徴ベクトルを時間配列順序に基づいて順次にスティッチングし、画像モーダルの特徴ベクトルを取得する。ここで、ｍとｎはいずれも１より大きい自然数であり、かつｎはｍ以下である。

一実施例において、画像特徴抽出モデルは、残差ネットワーク（ＲｅｓｉｄｕａｌＮｅｕｒａｌＮｅｔｗｏｒｋ、ＲｅｓＮｅｔ）を用いて画像特徴を抽出することができる。具体的には、残差ネットワーク４４０を用いてビデオフレームシーケンス４３０における各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンス４５０を取得することができる。ビデオフレームシーケンス４３０にｎフレームのビデオ画像がある場合、得られた特徴ベクトルシーケンス４５０にはこのｎフレームのビデオ画像に一対一に対応するｎ個の特徴ベクトルが含まれる。この特徴ベクトルシーケンス中の各特徴ベクトルを融合することにより、画像モーダルの特徴ベクトル４６０を取得することができる。例えば、この画像特徴抽出モデルはＲＮＮモデル又はシーケンス上のプーリングを用いて各ビデオフレームの特徴ベクトルを融合することができる。

例示的には、所定のサンプリングアルゴリズム４１０を用いてビデオサンプル４２０からビデオフレームを抽出することができる。所定のサンプリングアルゴリズムは例えばスパースサンプリングアルゴリズムを採用することができ、このスパースサンプリングアルゴリズムは例えばビデオをＯ個の時系列セグメントに均一に分割し、各セグメントが一つのフレームのビデオ画像をランダムに切断し、最後にＯ個の時系列セグメントから切断されたビデオ画像を組み合わせてビデオフレームシーケンスを形成することができる。このビデオフレームシーケンスにおけるビデオフレームを時系列に順次にスティッチングした後に残差ネットワークに入力する。最後に残差ネットワークから出力された特徴ベクトルをスティッチング方向にグローバルプーリングを行い、画像モーダルの特徴ベクトルを取得する。この所定のサンプリングアルゴリズムを用いてビデオフレームを抽出することにより、ビデオの時間変化による計算消費がそれに伴って増加するという問題を回避することができる。さらに、ビデオ語彙特徴が細部特徴の抽出を必要としないことを考慮し、スパースサンプリングアルゴリズムを採用する。この方法を採用すれば、ビデオセグメントの数が固定であるため、ビデオの長さに関わらず、画像モーダルの特徴抽出の計算量は固定値であり、それにより計算量がビデオ時間に伴って長くなるという問題を解決することができ、かつビデオ理解に対して、このグローバル特徴の情報量も十分である。ここで、Ｏは１より大きい自然数である。

本開示の実施例によれば、ディープ行為認識アーキテクチャを用いて、所定のアルゴリズムを用いてビデオフレームを抽出し、残差ネットワークを用いて特徴を抽出し、かつＲＮＮモデル又はシーケンス上のプーリングを用いて各ビデオフレームの特徴ベクトルを融合するという全体的なフローを実現することができる。ここで、ディープ行為認識アーキテクチャは例えば時間帯ネットワーク（例えばＴｅｍｐｏｒａｌＳｅｇｍｅｎｔＮｅｔｗｏｒｋｓ、ＴＳＮ）又は時間遷移モジュール（ＴｅｍｐｏｒａｌＳｈｉｆｔＭｏｄｕｌｅ、ＴＳＭ）であってもよく、本開示はこれを限定しない。

本開示の実施例によれば、ビデオ時間が長い場合に、例えばビデオサンプルを複数のビデオセグメントに予め分割することができる。次に所定のサンプリングアルゴリズムを用いて複数のビデオセグメントの各ビデオセグメントから少なくとも一つのビデオフレームを抽出する。例えば、所定のサンプリングアルゴリズムは各ビデオセグメントをＯ個のサブセグメントに均一に分割し、かつＯ個のサブセグメントの各サブセグメントから一つのフレームのビデオ画像をランダムに切断することができる。ビデオサンプルをＰ個のビデオセグメントに均一に予め分割すれば、最終的にサンプリングしてＰ×Ｏ個のビデオフレームを得ることができる。この方式により、サンプリングされたビデオフレームが少なすぎることによりビデオを完全に表現できない状況を回避することができる。ここで、Ｐは１より大きい自然数である。

図５は、本開示の実施例に係るオーディオモーダルの特徴ベクトルを決定する原理概略図である。

本開示の実施例によれば、抽出されたオーディオモーダルの特徴ベクトルは例えばメル周波数ケプストラム係数であってもよい。オーディオモーダルの特徴ベクトルを抽出する場合、ビデオサンプルのオーディオデータを少なくとも二つの特徴抽出層における第三特徴抽出層の入力とすることができる。この第三特徴抽出層はオーディオ特徴抽出モデルが設置されたサブネットワークであり、それによりオーディオデータのメル周波数ケプストラム係数を取得し、このメル周波数ケプストラム係数をオーディオモーダルの特徴ベクトルとする。

図５に示すように、この実施例５００において、第三特徴抽出層がメル周波数ケプストラム係数を抽出するフローは操作Ｓ５１０～操作Ｓ５５０を含むことができる。

操作Ｓ５１０において、ビデオサンプルのオーディオデータ５０１に対してオーディオフレーミング及びプリエンファシス操作を行う。ここで、オーディオデータの変化が緩やかであることを考慮し、それをスライスし、すなわちフレーミング操作を行なうことができる。フレーミングした後のオーディオデータは穏やかなランダムプロセスに近似すると見なすことができる。一般的なフレーミングの時間間隔は１０～３０ｍｓであってもよい。プリエンファシスの過程は高周波成分の振幅を強化するととに、高周波の共鳴ピークを強調するためのものである。

操作Ｓ５２０において、フレーミング、プリエンファシスを行なったオーディオデータに対して窓関数処理を行う。具体的にはフレーミングして得られた複数フレームのオーディオデータに対して窓掛け処理を行うことができる。例えばオーディオデータにハミング窓を乗算し、窓関数に対して処理を実現することができる。窓関数処理を行った後、例えばオーディオデータに対して短時間フーリエ変換を行うことにより、オーディオデータを線形周波数にマッピングすることができる。短時間フーリエ変換を行なった結果が複素数であることを考慮し、この実施例はさらに線形周波数にマッピングされたオーディオデータに対して絶対値又は二乗値を取り、線形周波数スペクトルを得ることができる。

操作Ｓ５３０において、得られた線形周波数スペクトルに対してメル（Ｍｅｌ）フィルタリングを行う。一群のＭｅｌフィルタを予め設計して線形周波数スペクトルをフィルタリングし、各Ｍｅｌフィルタのエネルギーを計算することができる。

操作Ｓ５４０において、計算して得られたＭｅｌフィルタのエネルギーにｌｏｇ変換を行い、準同型変換に近似する結果を得る。

操作Ｓ５５０において、準同型変換に近似した結果に対して離散コサイン（ＤｉｓｃｒｅｔｅＣｏｓｉｎｅＴｒａｎｓｆｏｒｍ、ＤＣＴ）変換を行い、メル周波数ケプストラム係数５０２を取得する。これは、時間領域信号を周波数領域に変換し、対数を取った後に時間領域に変換することにより、ケプストラムを得ることができるためである。

本開示の実施例は、メル周波数ケプストラム係数をオーディオモーダルの特徴ベクトルとすることにより、オーディオデータをよりよく表示することができる。これは、メル周波数ケプストラムの周波数帯域分割がメル目盛りで等間隔に分割され、正常な対数ケプストラムにおける線形間隔に用いられる周波数帯域よりも、聴覚システムに近似することができるためである。

図６は、本開示の実施例に係るビデオタグ推薦モデルのトレーニング方法の原理概略図である。

本開示の実施例によれば、図６に示すように、この実施例６００において、ビデオタグ推薦モデルをトレーニングする時、このモデルにパラメータ共有の二つのタグ特徴抽出ネットワーク（すなわち第一タグ特徴抽出ネットワーク６２２及び第二タグ特徴抽出ネットワーク６２３）を設置することができる。

ビデオタグ推薦モデルをトレーニングする場合、まずビデオサンプル６１１をビデオタグ推薦モデルのビデオ特徴抽出ネットワーク６２１に入力し、第一ビデオ特徴６３１を取得することができる。同様に、ポジティブサンプル６１２である第一タグを第一タグ特徴抽出ネットワーク６２２に入力し、このネットワークによって処理した後に第一特徴６３２を取得することができる。ネガティブサンプル６１３である第一タグを第二タグ特徴抽出ネットワーク６２３に入力し、このネットワークによって処理した後に第二特徴６３３を取得する。

次に、第一特徴６３２と第一ビデオ特徴６３１との間の距離を決定し、第一距離６４１を取得し、かつ第二特徴６３３と第一ビデオ特徴６３１との間の距離を決定し、第二距離６４２を取得する。ここで、第一距離と第二距離は例えばコサイン距離、ハミング距離、ユークリッド距離などの任意の距離で表すことができる。その後にこの第一距離６４１及び第二距離６４２に基づいて、所定の損失関数の値６５０を決定することができる。最後に逆方向伝播アルゴリズム又は勾配降下アルゴリズムにより、所定の損失関数の値６５０に基づいて、ビデオタグ推薦モデルをトレーニングする。

本開示の実施例によれば、所定の損失関数をトリプレット損失関数とすることを例とし、この所定の損失関数は以下の式で表すことができる：

ここで、Loss（x）は損失関数の値であり、d（a，p）は第一ビデオ特徴ａと第一特徴ｐとの間の距離であり、d（a，n）は第一ビデオ特徴ａと第二特徴ｎとの間の距離であり、ｍは距離閾値である。ここで、ｍは実際の需要に応じて設定することができ、一般的に、このｍの値は０より大きい任意の値であってもよく、この距離閾値を設定する目的は、トレーニング時に良好（特徴と第一ビデオ特徴との距離が十分に遠い）に示すネガティブサンプルを考慮せず、これにより注目させより区別しにくいサンプルペアをトレーニングし、トレーニング効率を向上させることである。

本開示の実施例によれば、トレーニング過程において、如何にしてネガティブサンプルを選択するかということがキーポイントである。一つのネガティブサンプルをランダムに選択してトレーニングすれば効果がよくない可能性があり、勾配が大きすぎるか又は勾配が小さすぎる状況を引き起こし、モデルのトレーニング効率及び安定性に大きな挑戦をもたらす。この実施例は、ビデオタグ推薦モデルをトレーニングする場合、まずポジティブサンプルである第一タグの第一特徴と第一ビデオ特徴との間の第一距離を決定することができる。この第一距離と所定値との和を目標距離とする。次にこの目標距離に基づいて所定のタグライブラリからタグを取得することにより、このタグの特徴と第一ビデオ特徴との間の距離がこの目標距離よりも大きく、それにより第二タグを取得する。ここで、所定値は０より大きい値であり、一実施例において、この所定値は前述のｍ値であってもよく、本開示はこれを限定しない。このネガティブサンプルの選択により、モデルのトレーニング効率を向上させ、トレーニングして得られたモデルの安定性を向上させることができる。

このように、ビデオタグ推薦モデルをトレーニングする過程において、モデル及び重みを繰り返すごとに、新しいモデルを用いてトレーニングサンプルをトラバース（Traverse）し、上記方法を用いて所定のタグライブラリから各アンカーサンプルに対して適切な一群のネガティブサンプルを見つけ、次にこの一群のネガティブサンプルから一つのネガティブサンプルをランダムに選択してポジティブサンプルとペアリングするネガティブサンプルとする。

例示的には、所定のタグライブラリは例えばリアルタイムホットスポット情報に基づいて動的に調整して更新することができ、このようにして、ビデオに決定されたタグがリアルタイムホットスポットをより正確に反映することができ、ユーザに推薦されたビデオの正確性を向上させ、ユーザ体験を向上させることに役立つ。

トレーニングを完了した後、第一タグ特徴抽出ネットワーク６２２及び第二タグ特徴抽出ネットワーク６２３のうちのいずれか一つを除去することにより、ビデオタグ推薦モデルを取得することができる。

上記ビデオタグ推薦モデルのトレーニング方法に基づいて、本開示はさらにビデオタグの決定方法を提供する。以下、図７を参照してこの方法を詳細に説明する。

図７は、本開示の実施例に係るビデオタグの決定方法のフローチャート概略図である。
図７に示すように、この実施例のビデオタグの決定方法７００は操作Ｓ７１０～操作Ｓ７３０を含むことができる。

操作Ｓ７１０において、ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを採用し、処理すべきビデオの第二ビデオ特徴を取得する。

本開示の実施例によれば、処理すべきビデオは、タグが添加されていないビデオ、すなわち前述のマークされていないビデオであってもよい。この操作Ｓ７１０は、前述の操作Ｓ２１０と類似し、ビデオタグ推薦モデルは、前述のビデオタグ推薦モデルのトレーニング方法を用いてトレーニングして得られ、ここでは説明を省略する。

操作Ｓ７２０において、所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力として、各タグのタグ特徴を取得する。

本開示の実施例によれば、所定のタグライブラリは、前述の所定のタグライブラリと類似し、所定のタグライブラリ中のタグをシーケンス形式でタグ特徴抽出ネットワークに順次に入力することにより、タグ特徴シーケンスを取得することができる。この操作Ｓ７２０でタグ特徴を取得する方法は前述の操作Ｓ２２０における第一特徴を取得する方法と類似し、ここでは説明を省略する。

操作Ｓ７３０において、各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとする。

この実施例は、タグ特徴シーケンスにおける各タグ特徴と第二ビデオ特徴との間の距離を計算することができる。距離が最も小さいタグ特徴に対応するタグを目標タグとする。又は、距離が小さい若干のタグ特徴に対応するタグを目標タグとすることができる。

一実施例において、所定のタグライブラリにおけるタグを処理すべきビデオとともにビデオタグ推薦モデルに入力することができ、ビデオタグ推薦モデルは各タグ特徴及び第二ビデオ特徴を取得した後、各タグ特徴と第二ビデオ特徴との間の距離を計算し、かつ距離をソートすることができる。ソート結果に基づいて、目標タグを直接出力する。又は、このビデオタグ推薦モデルは距離シーケンスを出力することにより、距離シーケンスに基づいて目標タグを決定することができる。

以上から分かるように、本開示の実施例のビデオタグの決定方法は、前述の方法を用いてトレーニングして得られたビデオタグの推薦モデルにより、所定のタグライブラリからビデオにマッチしたタグをリコールすることができる。関連技術において分類モデルによりタグ分類結果を得る技術的解決手段と比較して、所定のタグライブラリを動的に柔軟に設定することを容易にすることができ、したがってビデオタグを拡張しやすく、決定されたタグのリアルタイム性及び正確性を向上させる。

本開示の提供するビデオタグ推薦モデルのトレーニング方法に基づいて、本開示はさらにビデオタグ推薦モデルのトレーニング装置を提供する。以下、この装置について、図８を用いて詳細に説明する。

図８は本開示の実施例に係るビデオタグの推薦モデルのトレーニング装置の構造ブロック図である。

図８に示すように、この実施例のビデオタグ推薦モデルのトレーニング装置８００は第一ビデオ特徴取得モジュール８１０、第一特徴取得モジュール８２０、第二特徴取得モジュール８３０及びモデルトレーニングモジュール８４０を含むことができる。ここで、ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含む。

第一ビデオ特徴取得モジュール８１０はビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するために用いられる。一実施例において、第一ビデオ特徴取得モジュール８１０は前述の操作Ｓ２１０を実行するために用いられ、ここで説明を省略する。

第一特徴取得モジュール８２０は、ポジティブサンプルである第一タグをタグ特徴抽出ネットワークの入力として、第一タグの第一特徴を取得することに用いられる。一実施例において、第一特徴取得モジュール８２０は前述の操作Ｓ２２０を実行するために用いられ、ここで説明を省略する。

第二特徴取得モジュール８３０は、ネガティブサンプルである第二タグをタグ特徴抽出ネットワークの入力とし、第二タグの第二特徴を取得することに用いられる。一実施例において、第二特徴取得モジュール８３０は前述の操作Ｓ２３０を実行するために用いられ、ここで説明を省略する。

モデルトレーニングモジュール８４０は、第一ビデオ特徴、第一特徴、第二特徴及び所定の損失関数に基づいて、ビデオタグ推薦モデルをトレーニングするために用いられる。一実施例において、モデルトレーニングモジュール８４０は前述の操作Ｓ２４０を実行するために用いられ、ここで説明を省略する。

本開示の実施例によれば、ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含む。上記第一ビデオ特徴取得モジュール８１０はベクトル取得サブモジュール及び特徴取得サブモジュールを含むことができる。ベクトル取得サブモジュールは少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得するために用いられる。特徴取得サブモジュールは、特徴融合層を用いて少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、第一ビデオ特徴を取得するために用いられる。

本開示の実施例によれば、上記特徴取得サブモジュールはベクトル変換ユニット、重み決定ユニット及び重み付け和決定ユニットを含むことができる。ベクトル変換ユニットは、少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換するために用いられる。重み決定ユニットは、アテンションメカニズムに基づいて少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みを決定するために用いられる。重み付け和決定ユニットは少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、少なくとも二つのベクトルの重み付け和を決定するために用いられる。ここで、ビデオ推薦モデルのトレーニング過程において、アテンションメカニズムのパラメータは所定の損失関数に基づいて動的に調整される。

本開示の実施例によれば、ベクトル取得サブモジュールは画像ベクトル取得ユニットを含むことができ、少なくとも二つの特徴抽出層における第一特徴抽出層を採用し、画像モーダルの特徴ベクトルを取得することに用いられる。この画像ベクトル取得ユニットはフレームシーケンス取得サブユニット、ベクトルシーケンス取得サブユニット及び特徴ベクトル融合サブユニットを含むことができる。フレームシーケンス取得サブユニットは所定のサンプリングアルゴリズムを用いてビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得するために用いられる。ベクトルシーケンス取得サブユニットは残差ネットワークを用いてビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得することに用いられる。特徴ベクトル融合サブユニットは特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、画像モーダルの特徴ベクトルを取得するために用いられる。

本開示の実施例によれば、フレームシーケンス取得サブユニットは、以下の方式で少なくとも二つのビデオフレームを抽出するために用いられる：ビデオサンプルを複数のビデオセグメントに分割し、及び所定のサンプリングアルゴリズムを用いて複数のビデオセグメント中の各ビデオセグメントからビデオフレームを抽出し、少なくとも二つのビデオフレームを取得する。

本開示の実施例によれば、ベクトル取得サブモジュールは、テキストベクトル取得ユニットを含み、以下の方式によりテキストモーダルの特徴ベクトルを取得することに用いられる：ビデオサンプルのタイトルテキストを少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、テキストモーダルの特徴ベクトルを取得する。

本開示の実施例によれば、ベクトル取得サブモジュールは、オーディオベクトル取得ユニットを含み、以下の方式によりオーディオモーダルの特徴ベクトルを取得するために用いられる：ビデオサンプルのオーディオデータを少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、オーディオデータのメル周波数ケプストラム係数を取得し、オーディオモーダルの特徴ベクトルとする。

本開示の実施例によれば、モデルトレーニングモジュール８４０は、距離決定サブモジュール、値決定サブモジュール及びモデルトレーニングサブモジュールを含むことができる。距離決定サブモジュールは第一特徴及び第二特徴のそれぞれと第一マルチモーダルビデオ特徴との間の距離を決定し、第一距離及び第二距離を取得するために用いられる。値決定サブモジュールは第一距離と第二距離に基づいて、所定の損失関数の値を決定するために用いられる。モデルトレーニングサブモジュールは所定の損失関数の値に基づいて、ビデオタグ推薦モデルをトレーニングするために用いられる。

本開示の実施例によれば、上記ビデオタグ推薦モデルのトレーニング装置８００はさらに距離決定モジュール及びタグ取得モジュールを含むことができる。距離決定モジュールは第一特徴と第一ビデオ特徴との間の第一距離と所定値との和を決定し、目標距離を取得するために用いられる。タグ取得モジュールは目標距離に基づいて、所定のタグライブラリから第二タグを取得するために用いられる。ここで、第二タグの第二特徴と第一ビデオ特徴との間の第二距離はこの目標距離より大きい。

本開示の提供するビデオタグの決定方法に基づいて、本開示はビデオタグの決定装置をさらに提供する。以下、この装置について、図９を用いて詳細に説明する。

図９は本開示の実施例に係るビデオタグの決定装置の構造ブロック図である。
図９に示すように、この実施例のビデオタグの決定装置９００は第二ビデオ特徴取得モジュール９１０、タグ特徴取得モジュール９２０及びタグ決定モジュール９３０を含むことができる。

第二ビデオ特徴取得モジュール９１０はビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するために用いられる。ここで、ビデオタグ推薦モデルは前述のビデオタグ推薦モデルのトレーニング装置を用いてトレーニングして得られる。一実施例において、第二ビデオ特徴取得モジュール９１０は前述の操作Ｓ７１０を実行するために用いられて、ここで説明を省略する。

タグ特徴取得モジュール９２０は所定のタグライブラリにおける各タグをビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力として、各タグのタグ特徴を取得することに用いられる。一実施例において、タグ特徴取得モジュール９２０は前述の操作Ｓ７２０を実行するために用いられ、ここで説明を省略する。

タグ決定モジュール９３０は各タグのタグ特徴と第二ビデオ特徴との間の距離に基づいて、所定のタグライブラリにおける目標タグを決定し、処理すべきビデオに対するタグとするために用いられる。一実施例において、タグ決定モジュール９３０は前述の操作Ｓ７３０を実行するために用いられ、ここで説明を省略する。

説明すべきものとして、本開示の技術的解決手段において、関するユーザ個人情報の収集、記憶、使用、加工、伝送、提供及び開示等の処理は、いずれも相関法規則の規定に適合し、かつ公序良俗に反するものではない。

本開示の技術的解決手段において、ユーザの個人情報を取得するか又は収集する前に、いずれもユーザの許可又は同意を取得する。

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラム製品を提供する。

図１０は、本開示の実施例のビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法を実施することが可能な電子機器１０００の一例を示す概略ブロック図である。電子機器は、様々な形式のデジタルコンピュータ、例えば、ラップトップ型コンピュータ、デスクトップコンピュータ、作業台、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、大型コンピュータ、及び他の適切なコンピュータを示す。電子機器は、さらに様々な形式の移動装置を示し、例えば、個人デジタル処理、携帯電話、スマートフォン、ウェアラブル装置及び他の類似の計算装置であってよい。本明細書に示された部材、それらの接続及び関係、及びそれらの機能は例示に過ぎず、本明細書に記載された及び／又は要求された本開示の実現を限定するものではない。

図１０に示すように、機器１０００は、リードオンリーメモリ（ＲＯＭ）１００２に記憶されたコンピュータプログラム又は記憶ユニット１００８からランダムアクセスメモリ（ＲＡＭ）１００３にロードされたコンピュータプログラムに基づいて、様々な適切な動作及び処理を実行する計算ユニット１００１を含んでもよい。ＲＡＭ１００３には、さらに記憶機器１０００の操作に必要な様々なプログラム及びデータを記憶してもよい。計算ユニット１００１、ＲＯＭ１００２、およびＲＡＭ１００３は、バス１００４により相互に接続されている。バス１００４には、入出力（Ｉ／Ｏ）インタフェース１００５も接続されている。

機器１０００における複数の部品は、Ｉ／Ｏインタフェース１００５に接続され、例えばキーボード、マウスなどの入力ユニット１００６と、例えば様々なタイプのディスプレイ、スピーカなどの出力ユニット１００７と、例えば磁気ディスク、光ディスクなどの記憶ユニット１００８と、例えばネットワークカード、モデム、無線通信トランシーバなどの通信ユニット１００９とを含む。通信ユニット１００９は、機器１０００がインターネット等のコンピュータネットワークや各種の電気通信網を介して他の装置と情報／データをやり取りすることを可能にする。

計算ユニット１００１は、各種の処理、演算能力を有する汎用及び／又は専用の処理モジュールであってもよい。計算ユニット１００１としては、中央処理ユニット（ＣＰＵ）、グラフィックス・プロセッシング・ユニット（ＧＰＵ）、各種専用の人工知能（ＡＩ）演算チップ、各種機械学習モデルアルゴリズムを実行する計算ユニット、デジタル信号機（ＤＳＰ）、任意の適切なプロセッサ、コントローラ、マイクロコントローラ等が挙げられるが、これらに限定されるものではない。計算ユニット１００１は、上記説明した各方法及びステップを実行し、例えば、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法である。例えば、いくつかの実施例において、ビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法はコンピュータソフトウェアプログラムとして実現され、それは機械可読媒体、例えば記憶ユニット１００８に含まれる。いくつかの実施例において、コンピュータプログラムの一部又は全部はＲＯＭ１００２及び／又は通信ユニット１００９を介して装置１０００にロード及び／又はインストールされる。コンピュータプログラムがＲＡＭ１００３にロードされかつ計算ユニット１００１により実行される場合、上記のビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法の一つ又は複数のステップを実行することができる。代替的に、他の実施例において、計算ユニット１００１は他の任意の適切な方式（例えば、ファームウェア）によりビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法を実行するように構成されてもよい。

本明細書で説明したシステム及び技術の様々な実施形態は、デジタル電子回路システム、集積回路システム、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、専用集積回路（ＡＳＩＣ）、専用標準製品（ＡＳＳＰ）、チップ上システムのシステム（ＳＯＣ）、負荷プログラマブルロジック装置（ＣＰＬＤ）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／又はそれらの組み合わせにおいて実現してもよい。これらの様々な実施形態は、一つ又は複数のコンピュータプログラムにおいて実施してもよく、該一つ又は複数のコンピュータプログラムは少なくとも一つのプログラム可能なプロセッサを含むプログラム可能なシステムで実行され及び／又は解釈されてもよく、該プログラム可能なプロセッサは専用又は汎用のプログラム可能なプロセッサであってもよく、記憶システム、少なくとも一つの入力装置、及び少なくとも一つの出力装置からデータ及び命令を受信し、データ及び命令を該記憶システム、該少なくとも一つの入力装置、及び該少なくとも一つの出力装置に伝送してもよい。

本開示の方法を実施するためのプログラムコードは、１つ又は複数のプログラミング言語の任意の組み合わせで作成されてもよい。これらのプログラムコードは、汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のプロセッサ又はコントローラに提供されてもよく、それによって、プログラムコードがプロセッサ又はコントローラにより実行される時に、フローチャート及び／又はブロック図に規定された機能・操作が実施される。プログラムコードは、機器に完全に実行されてもよく、部分的に機器で実行されてもよく、独立したソフトウェアパッケージとして部分的に機器で実行され、かつ部分的に遠隔機器で実行されるか又は完全に遠隔機器又はサーバで実行されてもよい。

本開示のコンテキストにおいて、機械可読媒体は、有形の媒体であってもよく、命令実行システム、装置又は電子機器に使用され、又は命令実行システム、装置又は電子機器と組み合わせて使用されるプログラムを含んで又は記憶してもよい。機械可読媒体は、機械可読信号媒体又は機械可読記憶媒体であってもよい。機械可読媒体は、電子の、磁気的、光学的、電磁的、赤外線の、又は半導体システム、装置又は電子機器、又は上記内容の任意の適切な組み合わせを含んでもよいが、それらに限定されない。機械可読記憶媒体のより具体的な例としては、１つ以上の線による電気的接続、携帯式コンピュータディスク、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、読み出し専用メモリ（ＲＯＭ）、消去可能なプログラマブルリードオンリーメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、光ファイバ、ポータブルコンパクトディスクリードオンリーメモリ（ＣＤ－ＲＯＭ）、光学記憶装置、磁気記憶装置、又は上記内容の任意の適切な組み合わせを含む。

ユーザとの対話を提供するために、コンピュータにここで説明されたシステム及び技術を実施させてもよく、該コンピュータは、ユーザに情報を表示するための表示装置（例えば、ＣＲＴ（陰極線管）又はＬＣＤ（液晶ディスプレイ）モニタ）と、キーボード及びポインティングデバイス（例えば、マウス又はトラックボール）とを備え、ユーザは、該キーボード及び該ポインティングデバイスを介して入力をコンピュータに提供してもよい。他の種類の装置は、さらにユーザとの対話を提供してもよく、例えば、ユーザに提供されたフィードバックは、いかなる形式のセンシングフィードバック（例えば、視覚フィードバック、聴覚フィードバック、又は触覚フィードバック）であってもよく、かついかなる形式（音声入力、語音入力又は、触覚入力を含む）でユーザからの入力を受信してもよい。

ここで説明されたシステム及び技術は、バックグラウンド部品を含むコンピューティングシステム（例えば、データサーバとする）、又はミドルウェア部品を含むコンピューティングシステム（例えば、アプリケーションサーバ）、又はフロントエンド部品を含むコンピューティングシステム（例えば、グラフィカルユーザインタフェース又はウェブブラウザを有するユーザコンピュータ、ユーザが該グラフィカルユーザインタフェース又は該ネットワークブラウザを介してここで説明されたシステム及び技術の実施形態と対話することができる）、又はこのようなバックグラウンド部品、ミドルウェア部品、又はフロントエンド部品のいずれかの組み合わせを含むコンピューティングシステムに実施されてもよい。任意の形式又は媒体のデジタルデータ通信（例えば、通信ネットワーク）によりシステムの部品を互いに接続してもよい。通信ネットワークの例としては、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）及びインターネットを例示的に含む。

コンピュータシステムは、クライアント及びサーバを含んでもよい。クライアントとサーバ同士は、一般的に離れており、通常、通信ネットワークを介して対話する。クライアントとサーバとの関係は、該当するコンピュータ上でランニングし、クライアント－サーバの関係を有するコンピュータプログラムによって生成される。ここで、サーバはクラウドサーバであってもよく、クラウドコンピューティングサーバ又はクラウドホストと呼ばれ、クラウドコンピューティングサービスシステムのうちの一つのホスト製品であり、それにより従来の物理ホストとＶＰＳサービス（「ＶｉｒｔｕａｌＰｒｉｖａｔｅＳｅｒｖｅｒ」、又は「VPS」と略称する）において、管理難度が大きく、サービス拡張性が弱いという欠陥を解決する。サーバは分布式システムのサーバであってもよく、又はブロックチェーンを結合したサーバであってもよい。

理解されるべきこととして、以上に示された様々な形式のフローを使用してもよく、操作を改めてソーティングしたり、追加したり又は削除してもよい。例えば、本開示に記載の各ステップは、並列に実行されたり、順次に実行されたり、又は異なる順序で実行されてもよく、本開示の発明の所望の結果を実現することができれば、本明細書はここで限定されない。

上記具体的な実施形態は、本開示の保護範囲を限定するものではない。当業者であれば、設計要件及び他の要因に応じて、様々な修正、組み合わせ、サブコンビネーション及び代替を行うことが可能であると理解すべきである。本開示の精神と原則内で行われる任意の修正、均等置換及び改良などは、いずれも本開示の保護範囲内に含まれるべきである。

本発明は、モデルの柔軟性を向上させるビデオタグ推薦モデルのトレーニング方法及びビデオタグの決定方法、装置、電子機器、記憶媒体及びコンピュータプログラムを提供する。

本開示の別の態様によれば、コンピュータプログラムを提供し、プロセッサにより実行される時に本開示に記載のビデオタグ推薦モデルのトレーニング方法及び／又はビデオタグの決定方法を実現する。

本開示の実施例によれば、本開示はさらに電子機器、可読記憶媒体及びコンピュータプログラムを提供する。

Claims

ビデオタグ推薦モデルのトレーニング方法であって、
ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、
前記方法は、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することと、
ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得することと、
ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得することと、
前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
ビデオタグ推薦モデルのトレーニング方法。
前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得することは、
前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することと、
前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得することと、を含む
請求項１に記載の方法。
前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行うことは、
前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換することと、
アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに決定することと、
前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定することと、を含み、
ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
請求項２に記載の方法。
それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、以下のことにより画像モーダルの特徴ベクトルを取得することを含み、
所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得し、
残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得し、
前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得する、
請求項２又は３に記載の方法。
所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出することは、
前記ビデオサンプルを複数のビデオセグメントに分割することと、
前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得することと、を含む
請求項４に記載の方法。
それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
以下の方式によりテキストモーダルの特徴ベクトルを取得することを含み、
前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
請求項２～５のいずれか一項に記載の方法。
それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得することは、
以下の方式によりオーディオモーダルの特徴ベクトルを取得することを含む：
前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
請求項２～５のいずれか一項に記載の方法。
前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングすることは、
前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離と第二距離を取得することと、
前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定することと、
前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングすることと、を含む
請求項１に記載の方法。
前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得することと、
前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得することと、をさらに含み、
ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
請求項１に記載の方法。
ビデオタグを決定する方法であって、
ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得することと、
所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得することと、
前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとすることと、を含み、
ここで、前記ビデオタグ推薦モデルは、請求項１～９のいずれか一項に記載の方法を用いてトレーニングして得られる
ビデオタグの決定方法。
ビデオタグ推薦モデルのトレーニング装置であって、
前記ビデオタグ推薦モデルはビデオ特徴抽出ネットワーク及びタグ特徴抽出ネットワークを含み、前記装置は、
前記ビデオ特徴抽出ネットワークを用いて、ビデオサンプルの第一ビデオ特徴を取得するための第一ビデオ特徴取得モジュールと、
ポジティブサンプルである第一タグを前記タグ特徴抽出ネットワークの入力とし、前記第一タグの第一特徴を取得するための第一特徴取得モジュールと、
ネガティブサンプルである第二タグを前記タグ特徴抽出ネットワークの入力とし、前記第二タグの第二特徴を取得するための第二特徴取得モジュールと、
前記第一ビデオ特徴、前記第一特徴、前記第二特徴及び所定の損失関数に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングモジュールと、を含む
ビデオタグ推薦モデルのトレーニング装置。
前記ビデオ特徴抽出ネットワークは少なくとも二つの特徴抽出層及び特徴融合層を含み、
前記第一ビデオ特徴取得モジュールは、
前記少なくとも二つの特徴抽出層を用いて、それぞれビデオサンプルの少なくとも二つのモーダルの特徴ベクトルを取得するためのベクトル取得サブモジュールと、
前記特徴融合層を用いて前記少なくとも二つのモーダルの特徴ベクトルに重み付け融合を行い、前記第一ビデオ特徴を取得するための特徴取得サブモジュールと、を含む
請求項１０に記載の装置。
前記特徴取得サブモジュールは、
前記少なくとも二つのモーダルの特徴ベクトルを同じ次元の少なくとも二つのベクトルに変換するためのベクトル変換ユニットと、
アテンションメカニズムに基づいて前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みを決定するための重み決定ユニットと、
前記少なくとも二つのモーダルの特徴ベクトルに割り当てられた重みに基づいて、前記少なくとも二つのベクトルの重み付け和を決定するための重み付け和決定ユニットと、を含み、
ここで、前記ビデオタグ推薦モデルのトレーニング過程において、前記アテンションメカニズムのパラメータは前記所定の損失関数に基づいて動的に調整される
請求項１２に記載の装置。
前記ベクトル取得サブモジュールは、
前記少なくとも二つの特徴抽出層における第一特徴抽出層を用いて、画像モーダルの特徴ベクトルを取得するための画像ベクトル取得ユニットを含み、
前記画像ベクトル取得ユニットは、
所定のサンプリングアルゴリズムを用いて前記ビデオサンプルから少なくとも二つのビデオフレームを抽出し、ビデオフレームシーケンスを取得するためのフレームシーケンス取得サブユニットと、
残差ネットワークを用いて前記ビデオフレームシーケンスにおける各ビデオフレームの特徴ベクトルを抽出し、特徴ベクトルシーケンスを取得するためのベクトルシーケンス取得サブユニットと、
前記特徴ベクトルシーケンスにおける各特徴ベクトルを融合し、前記画像モーダルの特徴ベクトルを取得するための特徴ベクトル融合サブユニットと、を含む
請求項１２又は１３に記載の装置。
前記フレームシーケンス取得サブユニットは、以下の方式により前記少なくとも二つのビデオフレームを抽出するために用いられ、
前記ビデオサンプルを複数のビデオセグメントに分割し、
前記所定のサンプリングアルゴリズムを用いて前記複数のビデオセグメントのうちの各ビデオセグメントからビデオフレームを抽出し、前記少なくとも二つのビデオフレームを取得する
請求項１４に記載の装置。
前記ベクトル取得サブモジュールは、
以下の方式によりテキストモーダルの特徴ベクトルを取得するためのテキストベクトル取得ユニットを含み、
前記ビデオサンプルのタイトルテキストを前記少なくとも二つの特徴抽出層における第二特徴抽出層の入力とし、前記テキストモーダルの特徴ベクトルを取得する
請求項１２～１５のいずれか一項に記載の装置。
前記ベクトル取得サブモジュールは、
以下の方式によりオーディオモーダルの特徴ベクトルを取得するためのオーディオベクトル取得ユニットを含み、
前記ビデオサンプルのオーディオデータを前記少なくとも二つの特徴抽出層における第三特徴抽出層の入力とし、前記オーディオデータのメル周波数ケプストラム係数を取得し、前記オーディオモーダルの特徴ベクトルとする
請求項１２～１５のいずれか一項に記載の装置。
前記モデルトレーニングモジュールは、
前記第一特徴及び前記第二特徴のそれぞれと前記第一ビデオ特徴との間の距離を決定し、第一距離及び第二距離を取得するための距離決定サブモジュールと、
前記第一距離と前記第二距離に基づいて、前記所定の損失関数の値を決定するための値決定サブモジュールと、
前記所定の損失関数の値に基づいて、前記ビデオタグ推薦モデルをトレーニングするためのモデルトレーニングサブモジュールと、を含む
請求項１１に記載の装置。
前記第一特徴と前記第一ビデオ特徴との間の第一距離と、所定値との和を決定し、目標距離を取得するための距離決定モジュールと、
前記目標距離に基づいて、所定のタグライブラリから前記第二タグを取得するためのタグ取得モジュールと、をさらに含み、
ここで、前記第二タグの第二特徴と前記第一ビデオ特徴との間の第二距離は前記目標距離より大きい
請求項１１に記載の装置。
ビデオタグを決定する装置であって、
ビデオタグ推薦モデルにおけるビデオ特徴抽出ネットワークを用いて、処理すべきビデオの第二ビデオ特徴を取得するための第二ビデオ特徴取得モジュールと、
所定のタグライブラリにおける各タグを前記ビデオタグ推薦モデルにおけるタグ特徴抽出ネットワークの入力とし、前記各タグのタグ特徴を取得するためのタグ特徴取得モジュールと、
前記各タグのタグ特徴と前記第二ビデオ特徴との間の距離に基づいて、前記所定のタグライブラリにおける目標タグを決定し、前記処理すべきビデオに対応するタグとするタグ決定モジュールと、を含み、
ここで、前記ビデオタグ推薦モデルは請求項１１～１９のいずれか一項に記載の装置を用いてトレーニングして得られる
ビデオタグの決定装置。
電子機器であって、
少なくとも一つのプロセッサと、
前記少なくとも一つのプロセッサと通信接続されたメモリとを含み、
前記メモリには前記少なくとも一つのプロセッサにより実行可能な命令が記憶され、前記命令は、前記少なくとも一つのプロセッサが請求項１～１０のいずれか一項に記載の方法を実行することができるように、前記少なくとも一つのプロセッサにより実行される
電子機器。
コンピュータ命令を記憶した非一時的なコンピュータ可読記憶媒体であって、
前記コンピュータ命令は前記コンピュータに請求項１～１０のいずれか一項に記載の方法を実行させる
コンピュータ可読記憶媒体。
プロセッサにより実行される時に請求項１～１０のいずれか一項に記載の方法を実現するコンピュータプログラムを含む
コンピュータプログラム製品。