JP7127120B2 - ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム - Google Patents

ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム Download PDF

Info

Publication number
JP7127120B2
JP7127120B2 JP2020515067A JP2020515067A JP7127120B2 JP 7127120 B2 JP7127120 B2 JP 7127120B2 JP 2020515067 A JP2020515067 A JP 2020515067A JP 2020515067 A JP2020515067 A JP 2020515067A JP 7127120 B2 JP7127120 B2 JP 7127120B2
Authority
JP
Japan
Prior art keywords
video frame
video
feature sequence
neural network
frame feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020515067A
Other languages
English (en)
Other versions
JP2020533709A (ja
Inventor
タン,ヨンギ
マ,リン
リウ,ウェイ
Original Assignee
テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド filed Critical テンセント・テクノロジー・(シェンジェン)・カンパニー・リミテッド
Publication of JP2020533709A publication Critical patent/JP2020533709A/ja
Application granted granted Critical
Publication of JP7127120B2 publication Critical patent/JP7127120B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/735Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/15Correlation function computation including computation of convolution operations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/48Matching video sequences

Description

[技術分野]
本発明は、コンピュータ技術分野に関し、特に、ビデオ分類技術に関する。
ネットワークマルチメディア技術の急速な発展に伴い、様々なマルチメディア情報が出現している。ネットワークでビデオを見るのに慣れているユーザーが増えていき、ユーザーが多数のビデオから自分が視聴したいコンテンツを選択できるようにするために、サーバーは通常ビデオを分類し、ビデオ分類は、ビデオの管理及び関心の推奨の実現にとって重要な役割を果たす。
現在使用されているビデオ分類方法は主に、まず、マーキング対象ビデオの各ビデオフレームに対して特徴抽出を行い、次に、フレームレベルの特徴を平均特徴法によってビデオレベルの特徴に変換し、最後に、ビデオレベルの特徴を分類のために分類ネットワークに送信する。
しかしながら、現在のビデオ分類方法では、平均特徴方法を使用してフレームレベルの特徴を変換するだけでありビデオを分類するプロセスでは、ビデオフレームの特徴変換に対する他のディメンションの変化の影響を無視し、ビデオ分類の正確性を保証するのに不利である。
本発明の実施例はビデオ分類の方法、情報処理の方法及びサーバーを提供し、ビデオを分類するプロセスで、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善する。
そこで、本発明の第1の態様は、ビデオ分類の方法を提供し、当該方法は、コンピュータ装置によって実行され、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応することと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であることと、
第1のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであることと、
第2のニューラルネットワークモデルによって、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得することと、
前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果に基づいて前記処理対象ビデオのカテゴリを決定することと、
を含む。
本発明の第2の態様は情報処理の方法を提供し、当該方法はコンピュータ装置によって実行され、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応することと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であることと、
第1のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであることと、
第2のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用されることと、
を含む。
本発明の第3の態様はサーバーを提供し、
処理対象ビデオを取得するための第1の取得モジュールであって、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応する第1の取得モジュールと、
時間特徴サンプリングルールに従って前記第1の取得モジュールが取得した前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するための第2の取得モジュールであって、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係である第2の取得モジュールと、
第1のニューラルネットワークモデルによって、前記第2の取得モジュールが取得した前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第1の入力モジュールであって、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルである第1の入力モジュールと、
第2のニューラルネットワークモデルによって、前記第1の入力モジュールによって入力されて得られた前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得するための第2の入力モジュールであって、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される第2の入力モジュールと、
を含む。
本発明の第4の態様は、メモリ、プロセッサー及びバスシステムを含むサーバーを提供し、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリ内のプログラムを実行し、具体的に、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応するステップと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であるステップと、
第1のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであるステップと、
第2のニューラルネットワークモデルによって、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用されるステップと、
が含まれ、
前記バスシステムは、前記メモリ及び前記プロセッサーが通信するように、前記メモリ及び前記プロセッサーを接続する。
本発明の第5の態様はコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体はプログラムコードを記憶し、前記プログラムコードは上記の各態様に記載の方法を実行する。
本発明の第6の態様は指令が含まれるコンピュータプログラムを提供し、前記指令がコンピュータで実行されるときに、上記の各態様に記載の方法をコンピュータに実行させる。
上記の技術的解決策から、本発明の実施例には以下の利点があることが分かる。
本発明の実施例では、情報処理の方法を提供し、まず、コンピュータ装置は処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、コンピュータ装置は、第1のニューラルネットワークモデルによって、少なくとも1つのビデオフレーム特徴シーケンスを処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、最後に、コンピュータ装置は第2のニューラルネットワークモデルによって、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。
本発明の実施例における情報処理のアーキテクチャの概略図である。 本発明の実施例における情報処理の方法の一実施例の概略図である。 本発明の実施例における処理対象ビデオの概略図である。 本発明の実施例におけるインセプション構造を有する畳み込みニューラルネットワークの概略図である。 本発明の実施例における第1のニューラルネットワークモデルの構造概略図である。 本発明の実施例における第2のニューラルネットワークモデルの構造概略図である。 本発明の実施例におけるサーバーの一実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの別の実施例の概略図である。 本発明の実施例におけるサーバーの構造概略図である。
本発明の実施例は、ビデオ分類の方法、情報処理の方法及びサーバーを提供し、ビデオを分類するプロセスで、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。
本発明の明細書及び特許請求の範囲並びに上記の図面における用語「第1」、「第2」、「第3」、「第4」等(存在する場合)は、類似する対象を区別するために使用され、必ずしも特定の順序又は前後順序を説明するためのものではない。このように使用されるデータは、本明細書に記載した本発明の実施例を、例えば本明細書に例示又は記載したもの以外の順序で実施できるように、適宜交換できる。また、「含む」と「有する」という用語、及びそれらの変形は、非排他的な包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は装置は、明確にリストされているステップ又はユニットに必ずしも限定されず、明確にリストされていないもの、或いは、それらのプロセス、方法、製品、又はデバイスに固有の他のステップ又はユニットを含むことができる。
この解決策は主に、ビデオコンテンツ分類サービスを提供する。バックグラウンドでコンピュータ装置はビデオに対して特徴抽出、時間シーケンスモデリング、及び特徴圧縮を行い、最後にハイブリッドエキスパートモデルによってビデオ特徴を分類することで、コンピュータ装置でビデオの自動分類とラベリングが実現される。この解決策をビデオサイトに展開し、ビデオサイト内のビデオにキーワードを追加することができ、コンテンツをすばやく検索してマッチングすることもでき、また、ビデオのパーソナライズ推奨に使用できる。
説明を容易にするために、図1を参照する。図1は本発明の実施例における情報処理のアーキテクチャの概略図であり、図1に示すように、まず、コンピュータ装置は処理対象ビデオを取得し、図1から分かるように、処理対象ビデオには複数のビデオフレームが含まれ、また、各ビデオフレームは1つの時間特徴に対応し、異なる時間特徴はtによって表すことができる。次に、コンピュータ装置は畳み込みニューラルネットワークを使用して処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得し、次に、コンピュータ装置は各ビデオフレームに対応する時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定し、当該時間特徴シーケンスはフレームレベルの深層学習表現である。
引き続き、図1を参照し、コンピュータ装置は時間特徴サンプリングルールに従って、処理対象ビデオをサンプリングすることができ、時間特徴サンプリングルールとは、異なるフレームレートでビデオ特徴を時間ディメンションにおいてサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、これらのビデオフレーム特徴シーケンスが異なる時間スケールに対応するということを意味する。コンピュータ装置は、異なる時間スケールに対応するビデオフレーム特徴シーケンス入力をそれぞれ双方向リカレントニューラルネットワークに入力して、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該特徴表現結果は時間スケールにおけるビデオ特徴表現である。最後に、コンピュータ装置は全ての特徴表現結果を第2のニューラルネットワーク、即ちハイブリッドエキスパートモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、これらの予測結果に基づいて、処理対象ビデオのカテゴリを決定し、これによって処理対象ビデオを分類することができる。
一般的なビデオデータでは、ユーザーは多くの場合、ビデオ情報について説明し、コメントし、及びパーソナライズのタグデータを提供し、これにより、オンラインビデオに関連する豊富なテキスト情報を形成する。これらのテキスト情報はビデオ分類の準拠として使用してもよい。
以下、サーバーを実行主体として、本発明における情報処理の方法について説明し、本発明における情報処理の方法は、サーバーに適用できる他、他のコンピュータ装置にも適用できる。図2を参照すると、本発明の実施例における情報処理の方法の一実施例は以下のことを含む。
101、処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは1つの時間特徴に対応する。
本実施例では、サーバーはまず処理対象ビデオを取得し、具体的に、図3を参照する。図3は、本発明の実施例における処理対象ビデオの概略図であり、処理対象ビデオには複数のビデオフレームが含まれ、図3の各図は1つのビデオフレームであり、各ビデオフレームは1つの時間特徴に対応する。
なお、処理対象ビデオが一定の再生時間に対応するため、各フレームのビデオフレームは異なる再生時刻に対応し、処理対象ビデオ内の1番目のビデオフレームの時間特徴が「1」であり、2番目のビデオフレームの時間特徴は「2」であると仮定すると、類推して、T番目のビデオフレームの時間特徴は「T」である。
102、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは1つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する1つ以上のビデオフレームをサンプリングすることを定める
本実施例では、次に、サーバーは、時間特徴サンプリングルールに従って当該処理対象ビデオに対してサンプリング処理を行う必要がある。なお、時間特徴サンプリングルールには、予め設定された時間特徴とビデオフレーム特徴シーケンスとの間の関係が含まれている。実際の適用では、1つのビデオフレーム特徴シーケンスを取得してもよいし、少なくとも2つの異なる時間スケールのビデオフレーム特徴シーケンスを取得してもよく、異なる時間スケールに対応するビデオフレーム特徴シーケンスは、それらに含まれる各ビデオフレーム特徴に対応する時間特徴の数が異なり、それに応じて、異なる時間スケールに対応するビデオフレーム特徴シーケンスの長さも異なる。例えば、1つの処理対象ビデオには合計1000個のビデオフレームがあり、これらの1000個のビデオフレームはそれぞれ1から1000までの時間特徴に対応し、時間特徴サンプリングルールが各時間特徴が1つのビデオフレーム特徴に対応することであれば、処理対象ビデオの1000個の時間特徴は1000個のビデオフレーム特徴に対応し、それに応じて、この1000個のビデオフレーム特徴からなるビデオフレーム特徴シーケンスの長さは1000である。時間特徴サンプリングルールが、100個の時間特徴が1つのビデオフレーム特徴に対応することであれば、処理対象ビデオの1000個の時間特徴は10個のビデオフレーム特徴に対応し、それに応じて、この10個のビデオフレーム特徴からなるビデオフレーム特徴シーケンスの長さは10である。これによって類推し、ここで繰り返さない。
103、第1のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、各ビデオフレーム特徴シーケンスはそれぞれ、1つの特徴表現結果に対応する。
本実施例では、サーバーは、少なくとも1つのビデオフレーム特徴シーケンスを取得した後、異なる時間スケールに対応するビデオフレーム特徴シーケンスを第1のニューラルネットワークモデルに入力し、当該第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、次に、当該第1のニューラルネットワークモデルによって、入力された少なくとも1つのビデオフレーム特徴シーケンスを再帰的に処理して、それに応じて各ビデオフレーム特徴シーケンスの特徴表現結果を出力する。
異なる時間尺度は、異なるビデオフレーム特徴シーケンスの長さであり、ステップ102で説明したように、ビデオの合計の長さはTであり、各時間特徴が1つのビデオフレーム特徴に対応すると仮定すると、ビデオフレーム特徴シーケンスの長さはT/1である。10個の時間特徴が1つのビデオフレーム特徴に対応する場合、ビデオフレーム特徴シーケンスの長さはT/10である。
104、第2のニューラルネットワークモデルによって少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は、処理対象ビデオのカテゴリを決定するために使用される。各ビデオフレーム特徴シーケンスはそれぞれ、1つの予測結果に対応し、この実施例では、サーバーは、各ビデオフレーム特徴シーケンスに対応する特徴表現結果をそれぞれ第2のニューラルネットワークモデルに入力し、次に、第2のニューラルネットワークモデルによって、入力された各特徴表現結果を処理した後、各特徴表現結果に対応する予測結果を出力することができる。最後に、サーバーは予測結果に基づいて処理対象ビデオのカテゴリを決定することができる。
処理対象ビデオのカテゴリは「スポーツ」、「ニュース」、「音楽」、「アニメ」、及び「ゲーム」などを含むことができ、本明細書では限定しない。
本発明の実施例では、情報処理の方法を提供し、まず、サーバーは処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは1つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、サーバーはさらに、少なくとも1つのビデオフレーム特徴シーケンスを第1のニューラルネットワークモデルに入力して、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、最後に、サーバーは少なくともビデオフレーム特徴シーケンスに対応する特徴表現結果を第2のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。
任意選択で、上記の図2に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第1の選択可能実施例では、処理対象ビデオを取得した後、
畳み込みニューラルネットワークCNNを使用して処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得することと、
各ビデオフレームに対応する時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定し、時間特徴シーケンスがサンプリングを行うために使用されることと、
を含んでもよい。
本実施例では、サーバーは処理対象ビデオを取得した後、インセプション(inception)構造を有する畳み込みニューラルネットワーク(convolutional neural network、CNN)を使用して処理対象ビデオにおける各ビデオフレームを処理して、次に、各ビデオフレームに対応する時間特徴を抽出することができる。最後に、サーバーは各ビデオフレームの時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定する。処理対象ビデオの1番目のビデオフレームが1であり、2番目のビデオフレームは2であると仮定すると、類推して、最後のビデオフレームはTであり、処理対象ビデオの時間特徴シーケンスがT(秒)であることを決定することができる。
以下、inception構造のCNNについて説明し、図4を参照する。図4は、本発明の実施例におけるインセプション構造を有する畳み込みニューラルネットワークの概略図であり、図4に示すように、inception構造には3つの異なるサイズの畳み込み、即ち、1×1畳み込み層、3×3畳み込み層、5×5畳み込み層、及び3×3最大プーリング層が含まれ、最後の完全接続層を除去して、完全接続層の代わりにグローバル平均プーリング層(画像サイズを 1×1に変更する)を使用する。
ネットワーク機能を強化するために、ネットワークの深さを増やし、ネットワーク幅を増やすことができる。しかし、過剰適合(オーバーフィットを減らすために、自由パラメータを削減する必要がある。そのため、inception構造の同じ層には、畳み込み1×1畳み込み層、3×3畳み込み層、5×5畳み込み層3つの異なる畳み込みテンプレートがあり、それらは、異なるサイズで特徴抽出を行うことができ、ハイブリッドモデルでもある。最大プーリング層自体にも特徴抽出の機能があり、畳み込みとは異なり、パラメータがなく過剰適合することがなく、一つのブランチとしても機能する。しかし、直接このように行うと、ネットワーク全体の計算量は比較的大きくなり、レベルは深くならないため、3×3畳み込みと5×5畳み込みの前に1×1の畳み込みを行い、入力のチャネルの数を低下し、このようにして、ネットワークが深くなる一方、計算量が少なくなる。
次に、本発明の実施例では、サーバーは、処理対象ビデオを取得した後、畳み込みニューラルネットワークを使用して当該処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得してもよく、これらの時間特徴は、全体の処理対象ビデオの時間特徴シーケンスを構成する。上記の方法によって、畳み込みニューラルネットワークを利用して各ビデオフレームを訓練及び処理し、これは、時間特徴抽出の正確性及び效果を改善するのに有利である。
任意選択で、上記の図2に対応する第1の実施例を基に、本発明の実施例によって提供される情報処理の方法の第2の選択可能実施例では、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得することは、
時間特徴サンプリングルールに従って少なくとも1つの時間ウィンドウを決定し、各時間ウィンドウには処理対象ビデオにおける少なくとも1つのビデオフレームが含まれることと、
時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出することと、
を含んでもよい。
本実施例では、サーバーが少なくとも1つのビデオフレーム特徴シーケンスを取得する方法について説明する。
具体的に、まず、複数のスケールのビデオフレーム特徴シーケンスのサンプリングを行うために、時間特徴サンプリングルールに従って、少なくとも1つの時間ウィンドウを定義する。処理対象ビデオが合計T秒であり、1フレームビデオフレーム、5フレームビデオフレーム及び10フレームビデオフレームをそれぞれ時間ウィンドウとして、当該時間ウィンドウ内のビデオフレーム特徴を平均して、3つの異なるスケールにおけるビデオフレーム特徴シーケンスを取得することを想定する。T秒が100フレームと等しく、1フレームを時間ウィンドウとする場合、ビデオフレーム特徴シーケンスの長さはT/1=Tである。10フレームを時間ウィンドウとする場合、最後に得られるビデオフレーム特徴シーケンスの長さはT/10である。よって、ビデオフレーム特徴シーケンスの長さは時間ウィンドウの大きさに関連する。
時間ウィンドウの大きさは人為的に事前に定義してもよく、1つの時間ウィンドウ内のビデオフレームの数が多いほど、該時間ウィンドウに基づくビデオ分類の精度が粗くなり、各時間ウィンドウにおけるコンテンツについて、「1フレーム」のコンテンツになるように平均化操作を行う。
また、本発明の実施例では、異なる時間スケールでビデオフレーム特徴シーケンスを抽出する方法について説明し、即ち、まず、時間特徴サンプリングルールに従って少なくとも1つの時間ウィンドウを決定し、各時間ウィンドウには処理対象ビデオにおける少なくとも1つのビデオフレームが含まれ、次に、時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出する。上記の方法によって、異なるスケールにおけるビデオフレーム特徴シーケンスを取得することができ、これにより、複数の異なるサンプルを取得して特徴訓練を行い、この場合、ビデオ分類結果の正確性を向上させるのに有利である。
任意選択で、上記の図2に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第3の選択可能実施例では、第1のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得することは、
少なくとも1つのビデオフレーム特徴シーケンスを第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分に入力して、第1の表現結果を取得することと、
少なくとも1つのビデオフレーム特徴シーケンスを第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンスのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分に入力して、第2の表現結果を取得することと、
第1の表現結果及び第2の表現結果に基づいて、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算することと、
を含んでもよい。
本実施例では、第1のニューラルネットワークモデルを利用して各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得する方法について説明する。
具体的に、図5を参照する。図5は、本発明の実施例における第1のニューラルネットワークモデルの構造概略図であり、図5に示すように、第1のニューラルネットワークモデルの全体は2つの部分、即ち、ビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分及びビデオフレーム特徴シーケンスのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分を含み、各ビデオフレーム特徴シーケンスを第1のリカレントニューラルネットワーク部分に入力して、対応する第1の表現結果を出力する。それと同時に、各ビデオフレーム特徴シーケンスを第2のリカレントニューラルネットワーク部分に入力して、対応する第2の表現結果を出力する。
最後に、第1の表現結果及び第2の表現結果を直接継ぎ合わせることによって、ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得することができる。
次に、本発明の実施例では、ビデオフレーム特徴シーケンスの抽出を基に、リカレントゲートユニットに基づくリカレントニューラルネットワークを使用してビデオフレーム特徴シーケンスに対して時系列モデリングを行い、さらに、異なる時間スケールの情報をよりよく特徴表現するために、この解決策では第1のニューラルネットワークモデルを使用してビデオ特徴圧縮を行ってもよい。上記の方法によって、リカレントニューラルネットワークについて、ほとんどのビデオの主なコンテンツはビデオ時間の中部で発生するため、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方から処理対象ビデオの時間中心点位置へ特徴圧縮及び表現を行う。これにより、解決策の操作性を改善する。
任意選択で、上記の図2に対応する第3の実施例を基に、本発明の実施例によって提供される情報処理の方法の第4の選択可能実施例では、第1の表現結果及び第2の表現結果に基づいて、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算することは、以下のことを含んでもよい。
次の式を使用して少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する。
Figure 0007127120000001
その中、
Figure 0007127120000002
は1つのビデオフレーム特徴シーケンスの特徴表現結果を表し、h T/2は第1の表現結果を表し、h T/2は第2の表現結果を表し、xは第t時刻のビデオフレーム特徴シーケンスを表し、GRU()はゲート付き回帰型ユニットGRUニューラルネットワークを採用して処理することを表し、Tは前記処理対象ビデオの総時間を表し、tは1からTまでの1つの整数を表す。
本実施例では、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方からビデオ時間中心点位置へ特徴圧縮及び表現を行うことができる。具体的に、あるスケールのビデオフレーム特徴シーケンスxについて、t∈[1,T]。
第1のリカレントニューラルネットワーク部分は以下であり、
Figure 0007127120000003
第2のリカレントニューラルネットワーク部分は以下

である:
Figure 0007127120000004
その中、h 第1のリカレントニューラルネットワーク部分の中間層の特徴表現であり、第1の表現結果h T/2としても表現でき、h 第2のリカレントニューラルネットワーク部分の中間層の特徴表現であり、第2の表現結果h T/2としても表現でき、GRU()はリカレントゲートユニット関数であり、その具体的な形態は以下のようになる。
Figure 0007127120000005
その中、σはsigmoid関数を表し、σは逆正接関数を表し、W、W、W、U、U及びUは線形変換パラメーター行列であり、異なる添え字はそれぞれ異なる「関数」を表し、b、b及びbはオフセットパラメーターベクトルである。
Figure 0007127120000006
関数の合成を表す。
これにより、第1の表現結果及び第2の表現結果を継ぎ合わせるすることによって、あるスケールに対応する特徴表現結果、即ち、以下を取得することができる。
Figure 0007127120000007
また、本発明の実施例では、第1の表現結果及び第2の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する方法について説明した。上記の方法によって、予測結果は関連式によって計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。
任意選択で、上記の図2に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第5の選択可能実施例では、第2のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得することは、
少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を第2のニューラルネットワークモデルにおける第1のサブモデルに入力して、第3の表現結果を取得することと、
少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を第2のニューラルネットワークモデルにおける第2のサブモデルに入力して、第4の表現結果を取得することと、
第3の表現結果及び第4の表現結果に基づいて、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を計算することと、
を含んでもよい。
本実施例では、第2のニューラルネットワークモデルを利用して各ビデオフレーム特徴シーケンスに対応する予測結果を取得することについて説明する。
具体的に、図6を参照する。図6は、本発明の実施例における第2のニューラルネットワークモデルの構造概略図であり、図6に示すように、全体の第2のニューラルネットワークモデルは2つの部分を含み、それぞれ第1のサブモデル及び第2のサブモデルであり、第1のサブモデルは「ソフトマックス(softmax)関数」とも呼ばれ、第2のサブモデルは「シグモイド(sigmoid)関数」とも呼ばれる。各ビデオフレーム特徴シーケンスに対応する特徴表現結果を「softmax関数」に入力して、対応する第3の表現結果を出力する。それと同時に、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を「sigmoid関数」に出力して、対応する第4の表現結果を出力する。
各第3の表現結果及び各第4の表現結果を乗算してから、加算することによって、当該ビデオフレーム特徴シーケンスの予測結果が得られる。
次に、本発明の実施例では、第1のニューラルネットワークモデルを使用して特徴表現結果を取得した後、さらに第2のニューラルネットワークモデルを使用して当該特徴表現結果を分類することができる。上記の方法によって、特徴表現結果を非線形変換によってsoftmax関数及びsigmoid関数の結果をそれぞれ取得し、その後、2つの結果を乗算して加算することによって、分類用の最終的な特徴表現を取得し、これにより、分類の正確性を改善するのに有利である。
任意選択で、上記の図2に対応する第5の実施例を基に、本発明の実施例によって提供される情報処理の方法の第6の選択可能実施例では、第3の表現結果及び第4の表現結果に基づいて、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を計算することは、以下のことを含んでもよい。
次の式を使用して少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果
を計算する。
Figure 0007127120000008
その中、lableは1つのビデオフレーム特徴シーケンスの予測結果を表し、gは第3の表現結果を表し、aは第4の表現結果を表し、σはsoftmax関数を表し、σはsigmoid関数を表し、hは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、W及びbは第1のサブモデルにおけるパラメータを表し、W及びbは第2のサブモデルのパラメータを表し、Nは特徴表現結果を非線形変換して得られた全体の計算回数を表し、nは1からNまでの1つの整数を表す。
本実施例では、具体的に、対応する式を使用して各ビデオフレーム特徴シーケンスに対応する予測結果を計算して取得することについて説明した。
まず、特徴表現結果を非線形変換して得られたN個のsoftmax関数及びsigmoid関数を取得して利用して、softmax関数の計算結果に対応する第3の表現結果gを計算し、sigmoid関数の計算結果に対応する第4の表現結果aを計算し、なお、第3の表現結果gの計算及び第4の表現結果aの計算は計算順序がない。
2つの表現が得られた後、乗算操作を行ってから、加算操作を行うことによって、1つのビデオフレーム特徴シーケンスの予測結果が得られる。
また、本発明の実施例では、第3の表現結果及び第4の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する予測結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。
任意選択で、上記の図2及び図2に対応する第1から第6の実施例のいずれか1つを基に、本発明の実施例によって提供される情報処理の方法の第7の選択可能実施例では、第2のニューラルネットワークモデルによって、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得した後、
少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果及び少なくとも1つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算することと、
処理対象ビデオのカテゴリに基づいて処理対象ビデオを分類することと、
を含んでもよい。
本実施例では、サーバーは各ビデオフレーム特徴シーケンスに対応する予測結果及び各ビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算し、分類結果に基づいて当該処理対象ビデオを分類してもよい。
具体的に、予測結果が最大5つあり、長さが5である「0及び1」コードで予測結果を表すと仮定すると、例えば、予測結果が1であるコードは00001であり、予測結果が3であるコードは00100であり、類推して、1つの処理対象ビデオには同時に予測結果1及び予測結果3が含まれる場合、当該処理対象ビデオは00101として表される。
しかし、処理対象ビデオの全体について、各ビデオフレーム特徴シーケンスに対応する予測結果が得られるため、各予測結果は1以下であり、予測結果は、処理対象ビデオがこのカテゴリに属する可能性を表すことができる。例えば、{0.01,0.02,0.9,0.005,1.0}は合理的な予測結果であり、当該処理対象ビデオが1番目のカテゴリに属する確率は0.01、即ち、%であり、2番目のカテゴリに属する確率は0.02、即ち、%であり、3番目のカテゴリに属する確率は0.9、即ち、90%であり、4番目のカテゴリに属する確率は0.005、即ち、0.5%であり、5番目のカテゴリに属する確率は、即ち、100%であることを意味する。
この時、予め設定された重み値を利用して予測結果を計算し、計算に重み付けアルゴリズムが採用され、各重み値は、線形回帰によって学習された、各ビデオフレーム特徴シーケンスの重要度を表す数値であり、重み値の合計は1であり、例えば、{0.1, 0.4, 0.5}である。以下、具体的に、処理対象ビデオのカテゴリを計算して取得する方法について説明する。
重み値が{0.2,0.3,0.5}であり、ビデオフレーム特徴シーケンス1の予測結果は{0.01,0.02,0.9,0.005,1.0}であり、ビデオフレーム特徴シーケンス2の予測結果は{0.02,0.01,0.9,0.000,0.9}であり、ビデオフレーム特徴シーケンス3の予測結果は{0.2,0.3,0.8,0.01,0.7}である場合、処理対象ビデオのカテゴリは次のように表される。
0.2×0.01+0.3×0.02+0.5×0.2,0.2×0.02+0.3×0.01+0.5×0.3,0.2×0.9+0.3×0.9+ 0.5×0.8,0.2×0.005+0.3×0.000+0.5×0.01,0.2×1.0+0.3×0.9+0.5×0.7
={0.108,0.157,0.85,0.0075,0.82}
上記の式の結果から分かるように、処理対象ビデオが3番目のカテゴリに属する確率が最も高く、次に、番目のカテゴリであり、そのため、処理対象ビデオを3番目のカテゴリのビデオリストに優先的に表示することができる。
さらに、本発明の実施例では、サーバーは、各ビデオフレーム特徴シーケンスに対応する予測結果を取得した後、各ビデオフレーム特徴シーケンスに対応する予測結果及び各ビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算し、最後に、処理対象ビデオのカテゴリに基づいて処理対象ビデオを分類してもよい。上記の方法によって、予測結果が時間特徴を参照するため、処理対象ビデオを分析するときに、ビデオ分類の能力を改善することができ、これにより、パーソナライズ推奨を実現し、より優れた実用性を持っている。
以下、本発明におけるサーバーについて詳細に説明し、図7を参照する。図7は、本発明の実施例におけるサーバーの一実施例の概略図であり、サーバー20は、
処理対象ビデオを取得するための第1の取得モジュール201であって、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応する第1の取得モジュール201と、
時間特徴サンプリングルールに従って前記第1の取得モジュール201が取得した前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するための第2の取得モジュール202であって、前記時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係である第2の取得モジュール202と、
第1のニューラルネットワークモデルによって、前記第2の取得モジュール202が取得した前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第1の入力モジュール203であって、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルである第1の入力モジュール203と、
第2のニューラルネットワークモデルによって、前記第1の入力モジュール203が取得した前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得するための第2の入力モジュール204であって、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される第2の入力モジュール204と、
を含む。
本実施例では、第1の取得モジュール201は処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは1つの時間特徴に対応し、第2の取得モジュール202は時間特徴サンプリングルールに従って前記第1の取得モジュール201が取得した前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、第1の入力モジュール203は第1のニューラルネットワークモデルによって、前記第2の取得モジュール202が取得した前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第1のニューラルネットワークモデルはリカレントニューラルネットワークモデルであり、第2の入力モジュール204は第2のニューラルネットワークモデルによって、前記第1の入力モジュール203が取得した前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果は前記処理対象ビデオのカテゴリを決定するために使用される。
本発明の実施例では、サーバーを提供し、まず、当該サーバーは処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは1つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、サーバーは、さらに少なくとも1つのビデオフレーム特徴シーケンスを第1のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、最後に、サーバーは各ビデオフレーム特徴シーケンスに対応する特徴表現結果を第2のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。
任意選択で、上記の図7に対応する実施例を基に、図8を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、前記サーバー20はさらに、
前記第1の取得モジュール201が処理対象ビデオを取得した後、畳み込みニューラルネットワークCNNを使用して前記処理対象ビデオにおける各ビデオフレームを処理して、前記各ビデオフレームに対応する前記時間特徴を取得するための処理モジュール205と、
前記処理モジュール205によって処理された前記各ビデオフレームに対応する時間特徴に基づいて、前記処理対象ビデオの時間特徴シーケンスを決定するための決定モジュール206であって、前記時間特徴シーケンスはサンプリングを行うために使用される決定モジュール206と、
を含む。
また、本発明の実施例では、サーバーは、処理対象ビデオを取得した後、畳み込みニューラルネットワークを使用して当該処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得し、これらの時間特徴は、処理対象ビデオの全体の時間特徴シーケンスを構成する。上記の方法によって、畳み込みニューラルネットワークを利用して各ビデオフレームを訓練及び処理し、これは、時間特徴抽出の正確性及び效果を改善するのに有利である。
任意選択で、上記の図8に対応する実施例を基に、図9を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、
前記第2の取得モジュール202は、
前記時間特徴サンプリングルールに従って少なくとも1つの時間ウィンドウを決定するための決定ユニット2021であって、各時間ウィンドウは前記処理対象ビデオにおける少なくとも1つのビデオフレームを含む決定ユニット2021と、
前記時間特徴シーケンスから前記決定ユニット2021によって決定された各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出するための抽出ユニット2022と、
を含む。
また、本発明の実施例では、異なるスケールでのビデオフレーム特徴シーケンスを抽出する方法について説明した。即ち、まず、時間特徴サンプリングルールに従って少なくとも1つの時間ウィンドウを決定し、各時間ウィンドウは処理対象ビデオにおける少なくとも1つのビデオフレームを含み、その後、時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出する。上記の方法によって、異なるスケールでのビデオフレーム特徴シーケンスを取得することができ、これにより、複数の異なるサンプルを取得して特徴訓練を行い、ビデオ分類結果の正確性を向上させるのに有利である。
任意選択で、上記の図9に対応する実施例を基に、図10を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、
前記第1の入力モジュール203は、
前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分に入力して、第1の表現結果を取得するための第1の取得ユニット2031と、
前記各ビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分に入力して、第2の表現結果を取得するための第2の取得ユニット2032と、
前記第1の取得ユニット2031が取得した前記第1の表現結果及び前記第2の取得ユニット2032が取得した前記第2の表現結果に基づいて、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するための第1の計算ユニット2033と、
を含む。
また、本発明の実施例では、ビデオフレーム特徴シーケンスの抽出を基に、リカレントゲートユニットに基づくリカレントニューラルネットワークを使用してビデオフレーム特徴シーケンスに対して時系列モデリングを行ってもよく、さらに、異なる時間スケールの情報をよりよく特徴表現するために、この解決策では、第1のニューラルネットワークモデルを使用してビデオ特徴圧縮を行ってもよい。上記の方法によって、リカレントニューラルネットワークについて、ほとんどのビデオの主なコンテンツはビデオ時間の中部で発生するため、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方から処理対象ビデオの時間中心点位置へ特徴圧縮及び表現を行う。これにより、解決策の操作性を改善する。
任意選択で、上記の図10に対応する実施例を基に、図11を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、前記第1の計算ユニット2033は、
次の式を使用して少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するための第1の計算サブユニット20331を含む。
Figure 0007127120000009
その中、前記hは1つのビデオフレーム特徴シーケンスの特徴表現結果を表し、前記h T/2は前記第1の表現結果を表し、前記h T/2は前記第2の表現結果を表し、前記xは第t時刻の前記ビデオフレーム特徴シーケンスを表し、前記GRU()はゲート付き回帰型ユニットGRUニューラルネットワークを採用して処理することを表し、前記Tは前記処理対象ビデオの総時間を表し、前記tは1から前記Tまでの1つの整数を表す。
また、本発明の実施例では、具体的に、第1の表現結果及び第2の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。
任意選択で、上記の図7に対応する実施例を基に、図12を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、
前記第2の入力モジュール204は、
前記各ビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のニューラルネットワークモデルにおける第1のサブモデルに入力して、第3の表現結果を取得するための第3の取得ユニット2041と、
前記各ビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のニューラルネットワークモデルにおける第2のサブモデルに入力して、第4の表現結果を取得するための第4の取得ユニット2042と、
前記第3の取得ユニット2041が取得した前記第3の表現結果及び前記第4の取得ユニット2042が取得した前記第4の表現結果に基づいて、前記各ビデオフレーム特徴シーケンスに対応する予測結果を計算するための第2の計算ユニット2043と、
を含む。
また、本発明の実施例では、第1のニューラルネットワークモデルを使用して特徴表現結果を取得した後、さらに、第2のニューラルネットワークモデルを使用して当該特徴表現結果を分類してもよい。上記の方法によって、特徴表現結果を非線形変換することによってsoftmax関数及びsigmoid関数をそれぞれ取得し、その後、2つの関数の計算結果を乗算してから加算し、分類用の最終的な特徴表現を取得し、これにより、分類の正確性を向上させるのに有利である。
任意選択で、上記の図12に対応する実施例を基に、図13を参照し、本発明の実施例によって提供されるサーバー20の他の実施例では、
前記第2の計算ユニット2043は、
次の式を使用して前記各ビデオフレーム特徴シーケンスに対応する予測結果を計算するための第2の計算サブユニット20431を含む。
Figure 0007127120000010
その中、前記lableは1つのビデオフレーム特徴シーケンスの予測結果を表し、前記gは前記第3の表現結果を表し、前記aは前記第4の表現結果を表し、前記σはsoftmax関数を表し、前記σはsigmoid関数を表し、前記hは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、前記W及び前記bは前記第1のサブモデルにおけるパラメータを表し、前記W及び前記bは前記第2のサブモデルのパラメータを表し、前記Nは前記特徴表現結果を非線形変換して得られた全体の計算回数を表し、前記nは1から前記Nまでの1つの整数を表す。
また、本発明の実施例では、具体的に、第3の表現結果及び第4の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する予測結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。
任意選択で、上記の図7から図13のいずれか1つに対応する実施例を基に、図14を参照して、本発明の実施例によって提供されるサーバー20の他の実施例では、
前記サーバー20はさらに、
前記第2の入力モジュール204が第2のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得した後、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する前記予測結果及び前記少なくとも1つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、前記処理対象ビデオのカテゴリを計算するための計算モジュール207と、
前記計算モジュール207によって計算された前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するための分類モジュール208と、
を含む。
さらに、本発明の実施例では、サーバーは、各ビデオフレーム特徴シーケンスに対応する予測結果を取得した後、各ビデオフレーム特徴シーケンスに対応する予測結果及び各ビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算し、最後に、処理対象ビデオのカテゴリに基づいて処理対象ビデオを分類してもよい。上記の方法によって、予測結果が時間特徴を参照するため、処理対象ビデオを分析するときに、ビデオ分類の能力を改善することができ、これにより、パーソナライズ推奨を実現し、より優れた実用性を持っている。
図15は、本発明の実施例によって提供されるサーバーの構造概略図であり、当該サーバー300は配置又は性能の違いによって大きな差があり、1つ又は複数の中央処理装置(central processing units、CPU)322(例えば、1つ又は複数のプロセッサー)とメモリ332、アプリケーションプログラム342又はデータ344を記憶する1つ又は複数の記憶媒体330(例えば1つ又は複数の大容量記憶装置)を含むことができる。メモリ332及び記憶媒体330は短期記憶又は永続的記憶であり得る。記憶媒体330に記憶されるプログラムは、1つ又は複数のモジュール(図示せず)を含むことができ、各モジュールは、サーバー内の一連の指令操作を含むことができる。さらに、中央処理装置322は記憶媒体330と通信して、サーバー300で記憶媒体330内の一連の指令操作を実行するように設置できる。
サーバー300は、1つ又は複数の電源326、1つ又は複数の有線又は無線ネットワークインタフェース350、1つ又は複数の入出力インタフェース358、及び/又は、例えばWindows ServerTM、Mac OS XTM、UnixTM、LinuxTM、FreeBSDTMなどの1つ又は複数のオペレーティングシステム341を含んでもよい。
上記実施例においてサーバーによって実行されるステップは当該図15に示すサーバー構造に基づいて実行することができる。
本発明の実施例では、当該サーバーに含まれるCPU322は、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが1つの時間特徴に対応し、
時間特徴サンプリングルールに従って、前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、
第1のニューラルネットワークモデルによって、前記少なくとも1つのビデオフレーム特徴シーケンスを処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、
第2のニューラルネットワークモデルによって前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される、
という機能を有する。
任意選択で、CPU322はさらに、
畳み込みニューラルネットワークCNNを採用して前記処理対象ビデオにおける各ビデオフレームを処理して、前記各ビデオフレームに対応する時間特徴を取得するステップと、
前記各ビデオフレームに対応する時間特徴に基づいて、前記処理対象ビデオの時間特徴シーケンスを決定し、前記時間特徴シーケンスがサンプリングを行うために使用されるステップと、
を実行するために使用される。
任意選択で、CPU322は具体的に、
前記時間特徴サンプリングルールに従って、少なくとも1つの時間ウィンドウを決定し、各時間ウィンドウには前記処理対象ビデオにおける少なくとも1つのビデオフレームが含まれるステップと、
前記時間特徴シーケンスから前記各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出するステップと、
を実行するために使用される。
任意選択で、CPU322は具体的に、
前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分に入力して、第1の表現結果を取得するステップと、
前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分に入力して、第2の表現結果を取得するステップと、
前記第1の表現結果及び前記第2の表現結果に基づいて、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するステップと、
を実行するために使用される。
任意選択で、CPU322は具体的に、
次の式を使用して前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴
表現結果を計算するステップを実行するために使用される。
Figure 0007127120000011
その中、前記hは1つのビデオフレーム特徴シーケンスの特徴表現結果を表し、前記h T/2は前記第1の表現結果を表し、前記h T/2は前記第2の表現結果を表し、前記xは第t時刻の前記ビデオフレーム特徴シーケンスを表し、前記GRU()はゲート付き回帰型ユニットGRUニューラルネットワークを採用して処理することを表し、前記Tは前記処理対象ビデオの総時間を表し、前記tは1から前記Tまでの1つの整数を表す。
任意選択で、CPU322は具体的に、
前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のニューラルネットワークモデルにおける第1のサブモデルに入力して、第3の表現結果を取得するステップと、
前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のニューラルネットワークモデルにおける第2のサブモデルに入力して、第4の表現結果を取得するステップと、
前記第3の表現結果及び前記第4の表現結果に基づいて、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップと、
を実行するために使用される。
任意選択で、CPU322は具体的に、
次の式を使用して前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップを実行するために使用される。
Figure 0007127120000012
その中、前記lableは1つのビデオフレーム特徴シーケンスの予測結果を表し、前記gは前記第3の表現結果を表し、前記aは前記第4の表現結果を表し、前記σはsoftmax関数を表し、前記σはsigmoid関数を表し、前記hは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、前記W及び前記bは前記第1のサブモデルにおけるパラメータを表し、前記W及び前記bは前記第2のサブモデルのパラメータを表し、前記Nは前記特徴表現結果を非線形変換して得られた全体の計算回数を表し、前記nは1から前記Nまでの1つの整数を表す。
任意選択で、CPU322は、
前記少なくとも1つのビデオフレーム特徴シーケンスに対応する前記予測結果及び前記少なくとも1つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、前記処理対象ビデオのカテゴリを計算するステップと、
前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するステップと、
を実行するために使用される。
本発明の実施例は、プログラムコードを記憶するための記憶媒体をさらに提供し、当該プログラムコードは、上記の各実施例に記載される情報処理方法のいずれかの実施形態を実行するために使用される。
上記の実施例では、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって全体的又は部分的に実現することができる。ソフトウェアで実現する場合、全体又は一部をコンピュータプログラム製品の形で実現できる。
前記コンピュータプログラム製品には1つ又は複数のコンピュータ指令が含まれる。前記コンピュータプログラム指令がコンピュータにロードされて実行されるときに、本発明の実施例に従って説明されるプロセス又は機能は、全体的又は部分的に生成される。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又はその他のプログラマブル装置である。前記コンピュータ指令はコンピュータ可読記憶媒体に記憶されるか、又は1つのコンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送することができ、例えば、前記コンピュータ指令は、ウェブサイト、コンピュータ、サーバー又はデータセンターから有線(例えば同軸ケーブル、光ファイバー、デジタル加入者線(digital subscriber line、DSL)又は無線(例えば赤外線、ワイヤレスによって他のウェブサイト、コンピュータ、サーバー又はデータセンターに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータが記憶できる任意の使用可能な媒体、又は1つ又は複数の使用可能な媒体集積を含むサーバー、データセンターなどのデータ記憶装置である。前記使用可能な媒体は、磁気性媒体、(例えば、フロッピー(登録商標)ディスク、ハードディスク、磁気テープ)、光学媒体(例えば、デジタル多用途ディスク(digital versatile disc、DVD(登録商標)))、又は半導体媒体(例えばソリッドステートディスク(solid state disk、SSD)などであり得る。
当業者は、説明の便宜上及び簡潔さのために、上記のシステム、装置、及びユニットの特定の作業プロセスが、上記の方法の実施例のうち対応するプロセスを参照できることを明確に理解でき、ここで説明を繰り返しない。
本発明によって提供されるいくつかの実施例では、開示されたシステム、装置及び方法は他の形態で実現できることを理解すべきである。例えば、上記の装置の実施例は単なる例示であり、例えば、前記ユニットの分割は、論理的な機能の分割にすぎず、実際の実現には別の分割方法があり得る。例えば、複数のユニットやコンポーネントは、別のシステムに組み合わせたり、集積したり、或いは、いくつかの特徴を省略したり、実行しないことができる。加えて、図示又は議論される相互の結合又は直接結合又は通信接続は、何らかのインタフェース、装置又はユニットを介した間接結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。
分離部材として説明されている前記ユニットは、物理的に分離されている場合とされていない場合がある。ユニットとして表示される部材は、物理ユニットである場合とそうでない場合があり、つまり、1か所に配置されてもよいし、複数のネットワークユニットに分散されてもよい。実際のニーズに応じて、ユニットのいくつか又は全てを選択して、本実施例の解決策の目的を達成することができる。
また、本発明の各実施例における各機能ユニットは1つの処理ユニットに集積されてもよく、各ユニットは物理的に別個に存在してもよく、又は2つ以上のユニットが1つのユニットに集積されてもよい。上記の集積されたユニットはハードウェアの形で実現されてもよいし、ソフトウェア機能ユニットの形で実現されてもよい。
前記集積されたユニットは、ソフトウェア機能ユニットの形で実現され、スタンドアロン製品として販売又は使用される場合、1つのコンピュータ読み取り可能な記憶媒体に記憶することができる。そのような理解に基づいて、本発明の技術的解決策は、本質的又は従来技術に貢献する部分又は当該技術的解決策の全部又は一部がソフトウェア製品の形で具現化され得、当該コンピュータソフトウェア製品は1つの記憶媒体に記憶され、本発明の各実施例で説明した方法のステップの全部又は一部をコンピュータ装置(パーソナルコンピュータ、サーバー、又はネットワーク装置などであってもよい)に実行させるための複数の指令を含む。上記の記憶媒体は、Uディスク、モバイルハードディスク、読み取り専用メモリ(read-only memory、ROM)、ランダムアクセスメモリ(random access memory、RAM)、磁気ディスク、又は光ディスクなどの任意のプログラムコードを記憶できる媒体を含む。
上記のように、上記の実施例は、本発明の技術的解決策を例示するためのものであり、限定しない。本発明について上記の実施例を参照して詳細に説明したが、当業者は、依然として上記の実施例で説明した技術的解決策を修正するか、又はいくつかの技術的特徴を同等に置換できることを理解すべきである。本発明の修正及び置換は、対応する技術的解決策が本発明の実施例の技術的解決策の精神及び範囲から逸脱することを引き起こすことはない。

Claims (16)

  1. コンピュータ装置によって実行されるビデオ分類の方法であって、
    処理対象ビデオを取得するステップであり、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
    時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するステップであり、前記時間特徴サンプリングルールは1つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する1つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは1つ以上のビデオフレーム特徴を含むステップと、
    第1のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスを入力して、前記第1のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであり、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第1のニューラルネットワークモデルがリカレントニューラルネットワークモデルであるステップと、
    第2のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第2のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスの各々について1つ以上の予測結果を取得するステップであり、前記1つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の1つ以上のカテゴリの各々に属する可能性を示すステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスの各々について、1つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の1つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
    を含む方法。
  2. コンピュータ装置によって実行される情報処理の方法であって、
    処理対象ビデオを取得するステップであり、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
    時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するステップであり、前記時間特徴サンプリングルールは1つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する1つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは1つ以上のビデオフレーム特徴を含むステップと、
    第1のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスを入力して、前記第1のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであり、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第1のニューラルネットワークモデルはリカレントニューラルネットワークモデルであるステップと、
    第2のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第2のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスの各々について1つ以上の予測結果を取得するステップであり、前記1つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の1つ以上のカテゴリの各々に属する可能性を示すステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスの各々について、1つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の1つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
    を含む方法。
  3. 前記処理対象ビデオを取得した後、前記方法は、
    畳み込みニューラルネットワーク(CNN)に前記処理対象ビデオにおける各ビデオフレームを入力して、前記畳み込みニューラルネットワークの出力として前記各ビデオフレームに対応する前記時間特徴を取得するステップをさらに含む請求項2に記載の方法。
  4. 前記時間特徴サンプリングルールは、1つのビデオフレーム特徴に対応する時間特徴の数を時間ウィンドウとして定め、複数の前記時間ウィンドウに対応する1つ以上のビデオフレームをサンプリングすることを定め、
    前記時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するステップは、
    前記時間特徴サンプリングルールに従って複数の時間ウィンドウの各々に対応する1つ以上のビデオフレームをサンプリングすることにより、異なる長さを有する複数のビデオフレーム特徴シーケンスを取得する、請求項3に記載の方法。
  5. 前記第1のニューラルネットワークモデル前記少なくとも1つのビデオフレーム特徴シーケンスを入力して、前記第1のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップは、
    前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分に入力して、第1の表現結果を取得するステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分に入力して、第2の表現結果を取得するステップと、
    前記第1の表現結果及び前記第2の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップと、
    を含む請求項2に記載の方法。
  6. 前記第1の表現結果及び前記第2の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップは、
    次の式を使用して前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するステップを含み、
    Figure 0007127120000013
    なお、前記hは1つのビデオフレーム特徴シーケンスの特徴表現結果を表し、前記h T/2は前記第1の表現結果を表し、前記h T/2は前記第2の表現結果を表し、前記xは第t時刻の前記ビデオフレーム特徴シーケンスを表し、前記GRU()はゲート付き回帰型ユニット(GRU)ニューラルネットワークを採用して処理することを表し、前記Tは前記処理対象ビデオの総時間を表し、前記tは1から前記Tまでの1つの整数を表す請求項5に記載の方法。
  7. 前記第2のニューラルネットワークモデルは、softmax関数に基づく第1のサブモデルと、sigmoid関数に基づく第2のサブモデルと、を含み、
    前記第2のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第2のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスの各々について1つ以上の予測結果を取得するステップは、
    前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第1のサブモデルに入力して、第3の表現結果を取得するステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のサブモデルに入力して、第4の表現結果を取得するステップと、
    前記第3の表現結果及び前記第4の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップと、
    を含む請求項2に記載の方法。
  8. 前記第3の表現結果及び前記第4の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップは、
    次の式を使用して前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップを含み、
    Figure 0007127120000014

    なお、前記lableは1つのビデオフレーム特徴シーケンスの予測結果を表し、前記gは前記第3の表現結果を表し、前記aは前記第4の表現結果を表し、前記σはsoftmax関数を表し、前記σはsigmoid関数を表し、前記hは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、前記W及び前記bは前記第1のサブモデルにおけるパラメータを表し、前記W及び前記bは前記第2のサブモデルのパラメータを表し、前記Nは前記特徴表現結果を非線形変換して得られた全体の計算回数を表し、前記nは1から前記Nまでの1つの整数を表す請求項7に記載の方法。
  9. 前記方法は、
    前記処理対象ビデオの前記決定したカテゴリに基づいて前記処理対象ビデオを分類するステップをさらに含む請求項1から8のいずれか1項に記載の方法。
  10. 処理対象ビデオを取得するための第1の取得モジュールであって、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応する第1の取得モジュールと、
    時間特徴サンプリングルールに従って、前記第1の取得モジュールが取得した前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するための第2の取得モジュールであって、前記時間特徴サンプリングルールは1つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する1つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは1つ以上のビデオフレーム特徴を含む第2の取得モジュールと、
    第1のニューラルネットワークモデルに、前記第2の取得モジュールが取得した前記少なくとも1つのビデオフレーム特徴シーケンスを入力して、前記第1のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第1の入力モジュールであって、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第1のニューラルネットワークモデルはリカレントニューラルネットワークモデルである第1の入力モジュールと、
    第2のニューラルネットワークモデルに、前記第1の入力モジュールによって入力されて得られた前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第2のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスの各々について1つ以上の予測結果を取得するための第2の入力モジュールであって、前記1つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の1つ以上のカテゴリの各々に属する可能性を示す第2の入力モジュールと、
    前記少なくとも1つのビデオフレーム特徴シーケンスの各々について、1つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の1つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定する計算モジュールと、
    を含むサーバー。
  11. 前記計算モジュールによって計算された前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するための分類モジュールと、
    をさらに含む請求項10に記載のサーバー。
  12. メモリ、プロセッサー及びバスシステムを含むサーバーであり、
    前記メモリはプログラムを記憶するために使用され、
    前記プロセッサーは前記メモリ内のプログラムを実行するために使用され、具体的に、
    処理対象ビデオを取得するステップであって、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
    時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも1つのビデオフレーム特徴シーケンスを取得するステップであって、前記時間特徴サンプリングルールは1つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する1つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは1つ以上のビデオフレーム特徴を含むステップと、
    第1のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスを入力して、前記第1のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであって、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第1のニューラルネットワークモデルはリカレントニューラルネットワークモデルであるステップと、
    第2のニューラルネットワークモデルに前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第2のニューラルネットワークモデルの出力として前記少なくとも1つのビデオフレーム特徴シーケンスの各々について1つ以上の予測結果を取得するステップであって、前記1つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の1つ以上のカテゴリの各々に属する可能性を示すステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスの各々について、1つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の1つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
    が含まれ、
    前記バスシステムは、前記メモリ及び前記プロセッサーが通信するように、前記メモリ及び前記プロセッサーを接続するサーバー。
  13. 前記プロセッサーは、具体的に、
    前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第1のリカレントニューラルネットワーク部分に入力して、第1の表現結果を取得するステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスを前記第1のニューラルネットワークモデルにおいて前記少なくとも1つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第2のリカレントニューラルネットワーク部分に入力して、第2の表現結果を取得するステップと、
    前記第1の表現結果及び前記第2の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップと、
    を実行する請求項12に記載のサーバー。
  14. 前記第2のニューラルネットワークモデルは、softmax関数に基づく第1のサブモデルと、sigmoid関数に基づく第2のサブモデルと、を含み、
    前記プロセッサーは、具体的に、
    前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第1のサブモデルに入力して、第3の表現結果を取得するステップと、
    前記少なくとも1つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第2のサブモデルに入力して、第4の表現結果を取得するステップと、
    前記第3の表現結果及び前記第4の表現結果の継ぎ合わせとして、前記少なくとも1つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップと、
    を実行する請求項12に記載のサーバー。
  15. コンピュータ可読記憶媒体であって、
    前記コンピュータ可読記憶媒体はプログラムコードを記憶し、
    前記プログラムコードは、請求項2から9のいずれか1項に記載の方法を実行するコンピュータ可読記憶媒体。
  16. 指令が含まれるコンピュータプログラムであって、
    前記指令がコンピュータで実行されるときに、請求項2から9のいずれか1項に記載の方法をコンピュータに実行させるコンピュータプログラム。
JP2020515067A 2017-09-15 2018-08-16 ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム Active JP7127120B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710833668.8 2017-09-15
CN201710833668.8A CN109508584B (zh) 2017-09-15 2017-09-15 视频分类的方法、信息处理的方法以及服务器
PCT/CN2018/100733 WO2019052301A1 (zh) 2017-09-15 2018-08-16 视频分类的方法、信息处理的方法以及服务器

Publications (2)

Publication Number Publication Date
JP2020533709A JP2020533709A (ja) 2020-11-19
JP7127120B2 true JP7127120B2 (ja) 2022-08-29

Family

ID=65723493

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020515067A Active JP7127120B2 (ja) 2017-09-15 2018-08-16 ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム

Country Status (7)

Country Link
US (1) US10956748B2 (ja)
EP (1) EP3683723A4 (ja)
JP (1) JP7127120B2 (ja)
KR (1) KR102392943B1 (ja)
CN (2) CN109508584B (ja)
MA (1) MA50252A (ja)
WO (1) WO2019052301A1 (ja)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11636681B2 (en) * 2018-11-21 2023-04-25 Meta Platforms, Inc. Anticipating future video based on present video
JP7352369B2 (ja) * 2019-03-29 2023-09-28 株式会社日立システムズ 予測モデル評価システム、予測モデル評価方法
CN111782734B (zh) * 2019-04-04 2024-04-12 华为技术服务有限公司 数据压缩、解压方法和装置
CN110162669B (zh) * 2019-04-04 2021-07-02 腾讯科技(深圳)有限公司 视频分类处理方法、装置、计算机设备及存储介质
KR102255312B1 (ko) * 2019-06-07 2021-05-25 국방과학연구소 순환 신경망을 이용한 코덱 분류 시스템 및 코덱 분류 방법
CN110516113B (zh) * 2019-06-13 2020-11-17 腾讯科技(深圳)有限公司 一种视频分类的方法、视频分类模型训练的方法及装置
CN113010735B (zh) * 2019-12-20 2024-03-08 北京金山云网络技术有限公司 一种视频分类方法、装置、电子设备及存储介质
CN111144508A (zh) * 2019-12-30 2020-05-12 中国矿业大学(北京) 煤矿副井轨道运输自动控制系统与控制方法
CN111104930B (zh) * 2019-12-31 2023-07-11 腾讯科技(深圳)有限公司 视频处理方法、装置、电子设备及存储介质
CN111190600B (zh) * 2019-12-31 2023-09-19 中国银行股份有限公司 基于gru注意力模型的前端代码自动生成的方法及系统
CN111209439B (zh) * 2020-01-10 2023-11-21 北京百度网讯科技有限公司 视频片段检索方法、装置、电子设备及存储介质
CN111209883B (zh) * 2020-01-13 2023-08-04 南京大学 一种基于多源运动特征融合的时序自适应视频分类方法
CN111259779B (zh) * 2020-01-13 2023-08-01 南京大学 一种基于中心点轨迹预测的视频动作检测方法
CN111428660B (zh) * 2020-03-27 2023-04-07 腾讯科技(深圳)有限公司 视频剪辑方法和装置、存储介质及电子装置
US11354906B2 (en) * 2020-04-13 2022-06-07 Adobe Inc. Temporally distributed neural networks for video semantic segmentation
CN111489378B (zh) * 2020-06-28 2020-10-16 腾讯科技(深圳)有限公司 视频帧特征提取方法、装置、计算机设备及存储介质
CN111737521B (zh) * 2020-08-04 2020-11-24 北京微播易科技股份有限公司 一种视频分类方法和装置
CN113204992B (zh) * 2021-03-26 2023-10-27 北京达佳互联信息技术有限公司 视频质量确定方法、装置、存储介质及电子设备
CN113349791A (zh) * 2021-05-31 2021-09-07 平安科技(深圳)有限公司 异常心电信号的检测方法、装置、设备及介质
CN113204655B (zh) * 2021-07-02 2021-11-23 北京搜狐新媒体信息技术有限公司 多媒体信息的推荐方法、相关装置及计算机存储介质
CN113779472A (zh) * 2021-07-30 2021-12-10 阿里巴巴(中国)有限公司 内容审核方法、装置及电子设备
KR102430989B1 (ko) 2021-10-19 2022-08-11 주식회사 노티플러스 인공지능 기반 콘텐츠 카테고리 예측 방법, 장치 및 시스템
CN114443896B (zh) * 2022-01-25 2023-09-15 百度在线网络技术(北京)有限公司 数据处理方法和用于训练预测模型的方法
CN114611584A (zh) * 2022-02-21 2022-06-10 上海市胸科医院 Cp-ebus弹性模式视频的处理方法、装置、设备与介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111660A (ja) 2015-12-17 2017-06-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100656373B1 (ko) 2005-12-09 2006-12-11 한국전자통신연구원 시간구간별 우선순위와 판별정책을 적용하는 유해 동영상판별 방법 및 그 장치
US8990132B2 (en) * 2010-01-19 2015-03-24 James Ting-Ho Lo Artificial neural networks based on a low-order model of biological neural networks
CN103544498B (zh) * 2013-09-25 2017-02-08 华中科技大学 基于自适应抽样的视频内容检测方法与系统
CN104331442A (zh) * 2014-10-24 2015-02-04 华为技术有限公司 视频分类方法和装置
US10762894B2 (en) * 2015-03-27 2020-09-01 Google Llc Convolutional neural networks
JP6556509B2 (ja) 2015-06-16 2019-08-07 Cyberdyne株式会社 光音響画像化装置および光源ユニット
CN104951965B (zh) * 2015-06-26 2017-04-19 深圳市腾讯计算机系统有限公司 广告投放方法及装置
CN104966104B (zh) * 2015-06-30 2018-05-11 山东管理学院 一种基于三维卷积神经网络的视频分类方法
US9697833B2 (en) * 2015-08-25 2017-07-04 Nuance Communications, Inc. Audio-visual speech recognition with scattering operators
CN106503723A (zh) * 2015-09-06 2017-03-15 华为技术有限公司 一种视频分类方法及装置
CN105550699B (zh) * 2015-12-08 2019-02-12 北京工业大学 一种基于cnn融合时空显著信息的视频识别分类方法
US11055537B2 (en) * 2016-04-26 2021-07-06 Disney Enterprises, Inc. Systems and methods for determining actions depicted in media contents based on attention weights of media content frames
CN106131627B (zh) * 2016-07-07 2019-03-26 腾讯科技(深圳)有限公司 一种视频处理方法、装置及系统
US10402697B2 (en) * 2016-08-01 2019-09-03 Nvidia Corporation Fusing multilayer and multimodal deep neural networks for video classification
CN106779467A (zh) * 2016-12-31 2017-05-31 成都数联铭品科技有限公司 基于自动信息筛选的企业行业分类系统
US11263525B2 (en) * 2017-10-26 2022-03-01 Nvidia Corporation Progressive modification of neural networks
US10334202B1 (en) * 2018-02-28 2019-06-25 Adobe Inc. Ambient audio generation based on visual information
US20190286990A1 (en) * 2018-03-19 2019-09-19 AI Certain, Inc. Deep Learning Apparatus and Method for Predictive Analysis, Classification, and Feature Detection
US10860858B2 (en) * 2018-06-15 2020-12-08 Adobe Inc. Utilizing a trained multi-modal combination model for content and text-based evaluation and distribution of digital video content to client devices
US10418957B1 (en) * 2018-06-29 2019-09-17 Amazon Technologies, Inc. Audio event detection
US10699129B1 (en) * 2019-11-15 2020-06-30 Fudan University System and method for video captioning

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017111660A (ja) 2015-12-17 2017-06-22 日本電信電話株式会社 映像パターン学習装置、方法、及びプログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Shaoxiang Chen, etal.,Aggregating Frame-level Features for Large-Scale Video classification,arXiv.1707.00803v1,arXiv,2017年07月04日,1-6,https://arxiv.org/pdf/1707.00803
原島 博 他,エンサイクロペディア 電子情報通信ハンドブック 第1版 Encyclopedia Electronics,Information and Communication Handbook,第1版,株式会社オーム社,1998年11月30日,76~84

Also Published As

Publication number Publication date
CN110532996A (zh) 2019-12-03
CN110532996B (zh) 2021-01-22
JP2020533709A (ja) 2020-11-19
CN109508584A (zh) 2019-03-22
MA50252A (fr) 2020-07-22
EP3683723A1 (en) 2020-07-22
KR102392943B1 (ko) 2022-04-29
CN109508584B (zh) 2022-12-02
WO2019052301A1 (zh) 2019-03-21
US10956748B2 (en) 2021-03-23
US20190384985A1 (en) 2019-12-19
EP3683723A4 (en) 2021-06-23
KR20190133040A (ko) 2019-11-29

Similar Documents

Publication Publication Date Title
JP7127120B2 (ja) ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム
CN106960219B (zh) 图片识别方法及装置、计算机设备及计算机可读介质
CN108229667B (zh) 基于人工神经网络类别的修剪
CN109086811B (zh) 多标签图像分类方法、装置及电子设备
CN109522450B (zh) 一种视频分类的方法以及服务器
CN108073902B (zh) 基于深度学习的视频总结方法、装置及终端设备
US11625433B2 (en) Method and apparatus for searching video segment, device, and medium
WO2022199504A1 (zh) 内容识别方法、装置、计算机设备和存储介质
CN116686017A (zh) 一种用于视频动作识别的时间瓶颈注意力体系结构
CN112132847A (zh) 模型训练方法、图像分割方法、装置、电子设备和介质
CN110096617B (zh) 视频分类方法、装置、电子设备及计算机可读存储介质
CN109902588B (zh) 一种手势识别方法、装置及计算机可读存储介质
CN111970536B (zh) 一种基于音频生成视频的方法和装置
CN113987119A (zh) 一种数据检索方法、跨模态数据匹配模型处理方法和装置
JP7188856B2 (ja) 動的な画像解像度評価
CN111488517A (zh) 用于训练点击率预估模型的方法和装置
CN117217284A (zh) 一种数据处理方法及其装置
JP2019086979A (ja) 情報処理装置、情報処理方法及びプログラム
JP6015504B2 (ja) ビデオ処理装置、ビデオ処理方法及び設備
CN115063858A (zh) 视频人脸表情识别模型训练方法、装置、设备及存储介质
US11430219B2 (en) Explainable video performance prediction
CN113689288B (zh) 基于实体列表的风险识别方法、装置、设备及存储介质
CN112052704A (zh) 用于检测时序动作的方法和装置
CN116992292A (zh) 点击率预估模型训练方法和装置、点击率预估方法和装置
CN116524271A (zh) 卷积神经网络训练方法、装置以及设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200317

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210608

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20210906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220412

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220711

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220809

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220817

R150 Certificate of patent or registration of utility model

Ref document number: 7127120

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150