JP7127120B2

JP7127120B2 - ビデオ分類の方法、情報処理の方法及びサーバー、並びにコンピュータ可読記憶媒体及びコンピュータプログラム

Info

Publication number: JP7127120B2
Application number: JP2020515067A
Authority: JP
Inventors: タン，ヨンギ; マ，リン; リウ，ウェイ
Original assignee: テンセント・テクノロジー・（シェンジェン）・カンパニー・リミテッド
Priority date: 2017-09-15
Filing date: 2018-08-16
Publication date: 2022-08-29
Anticipated expiration: 2038-08-16
Also published as: CN110532996A; CN110532996B; JP2020533709A; CN109508584A; MA50252A; EP3683723A1; KR102392943B1; CN109508584B; WO2019052301A1; US10956748B2; US20190384985A1; EP3683723A4; KR20190133040A

Description

［技術分野］
本発明は、コンピュータ技術分野に関し、特に、ビデオ分類技術に関する。

ネットワークマルチメディア技術の急速な発展に伴い、様々なマルチメディア情報が出現している。ネットワークでビデオを見るのに慣れているユーザーが増えていき、ユーザーが多数のビデオから自分が視聴したいコンテンツを選択できるようにするために、サーバーは通常ビデオを分類し、ビデオ分類は、ビデオの管理及び関心の推奨の実現にとって重要な役割を果たす。

現在使用されているビデオ分類方法は主に、まず、マーキング対象ビデオの各ビデオフレームに対して特徴抽出を行い、次に、フレームレベルの特徴を平均特徴法によってビデオレベルの特徴に変換し、最後に、ビデオレベルの特徴を分類のために分類ネットワークに送信する。

しかしながら、現在のビデオ分類方法では、平均特徴方法を使用してフレームレベルの特徴を変換するだけであり、ビデオを分類するプロセスでは、ビデオフレームの特徴変換に対する他のディメンションの変化の影響を無視し、ビデオ分類の正確性を保証するのに不利である。

本発明の実施例はビデオ分類の方法、情報処理の方法及びサーバーを提供し、ビデオを分類するプロセスで、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善する。

そこで、本発明の第１の態様は、ビデオ分類の方法を提供し、当該方法は、コンピュータ装置によって実行され、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応することと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であることと、
第１のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであることと、
第２のニューラルネットワークモデルによって、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得することと、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果に基づいて前記処理対象ビデオのカテゴリを決定することと、
を含む。

本発明の第２の態様は情報処理の方法を提供し、当該方法はコンピュータ装置によって実行され、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応することと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であることと、
第１のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであることと、
第２のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用されることと、
を含む。

本発明の第３の態様はサーバーを提供し、
処理対象ビデオを取得するための第１の取得モジュールであって、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応する第１の取得モジュールと、
時間特徴サンプリングルールに従って前記第１の取得モジュールが取得した前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するための第２の取得モジュールであって、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係である第２の取得モジュールと、
第１のニューラルネットワークモデルによって、前記第２の取得モジュールが取得した前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第１の入力モジュールであって、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルである第１の入力モジュールと、
第２のニューラルネットワークモデルによって、前記第１の入力モジュールによって入力されて得られた前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得するための第２の入力モジュールであって、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される第２の入力モジュールと、
を含む。

本発明の第４の態様は、メモリ、プロセッサー及びバスシステムを含むサーバーを提供し、
前記メモリは、プログラムを記憶し、
前記プロセッサーは、前記メモリ内のプログラムを実行し、具体的に、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応するステップと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であるステップと、
第１のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであるステップと、
第２のニューラルネットワークモデルによって、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用されるステップと、
が含まれ、
前記バスシステムは、前記メモリ及び前記プロセッサーが通信するように、前記メモリ及び前記プロセッサーを接続する。

本発明の第５の態様はコンピュータ可読記憶媒体を提供し、前記コンピュータ可読記憶媒体はプログラムコードを記憶し、前記プログラムコードは上記の各態様に記載の方法を実行する。

本発明の第６の態様は指令が含まれるコンピュータプログラムを提供し、前記指令がコンピュータで実行されるときに、上記の各態様に記載の方法をコンピュータに実行させる。

上記の技術的解決策から、本発明の実施例には以下の利点があることが分かる。

本発明の実施例では、情報処理の方法を提供し、まず、コンピュータ装置は処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、コンピュータ装置は、第１のニューラルネットワークモデルによって、少なくとも１つのビデオフレーム特徴シーケンスを処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、最後に、コンピュータ装置は第２のニューラルネットワークモデルによって、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。

本発明の実施例における情報処理のアーキテクチャの概略図である。本発明の実施例における情報処理の方法の一実施例の概略図である。本発明の実施例における処理対象ビデオの概略図である。本発明の実施例におけるインセプション構造を有する畳み込みニューラルネットワークの概略図である。本発明の実施例における第１のニューラルネットワークモデルの構造概略図である。本発明の実施例における第２のニューラルネットワークモデルの構造概略図である。本発明の実施例におけるサーバーの一実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの別の実施例の概略図である。本発明の実施例におけるサーバーの構造概略図である。

本発明の実施例は、ビデオ分類の方法、情報処理の方法及びサーバーを提供し、ビデオを分類するプロセスで、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。

本発明の明細書及び特許請求の範囲並びに上記の図面における用語「第１」、「第２」、「第３」、「第４」等（存在する場合）は、類似する対象を区別するために使用され、必ずしも特定の順序又は前後順序を説明するためのものではない。このように使用されるデータは、本明細書に記載した本発明の実施例を、例えば本明細書に例示又は記載したもの以外の順序で実施できるように、適宜交換できる。また、「含む」と「有する」という用語、及びそれらの変形は、非排他的な包含を網羅することを意図しており、例えば、一連のステップ又はユニットを含むプロセス、方法、システム、製品、又は装置は、明確にリストされているステップ又はユニットに必ずしも限定されず、明確にリストされていないもの、或いは、それらのプロセス、方法、製品、又はデバイスに固有の他のステップ又はユニットを含むことができる。

この解決策は主に、ビデオコンテンツ分類サービスを提供する。バックグラウンドでコンピュータ装置はビデオに対して特徴抽出、時間シーケンスモデリング、及び特徴圧縮を行い、最後にハイブリッドエキスパートモデルによってビデオ特徴を分類することで、コンピュータ装置でビデオの自動分類とラベリングが実現される。この解決策をビデオサイトに展開し、ビデオサイト内のビデオにキーワードを追加することができ、コンテンツをすばやく検索してマッチングすることもでき、また、ビデオのパーソナライズ推奨に使用できる。

説明を容易にするために、図１を参照する。図１は本発明の実施例における情報処理のアーキテクチャの概略図であり、図１に示すように、まず、コンピュータ装置は処理対象ビデオを取得し、図１から分かるように、処理対象ビデオには複数のビデオフレームが含まれ、また、各ビデオフレームは１つの時間特徴に対応し、異なる時間特徴はｔによって表すことができる。次に、コンピュータ装置は畳み込みニューラルネットワークを使用して処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得し、次に、コンピュータ装置は各ビデオフレームに対応する時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定し、当該時間特徴シーケンスはフレームレベルの深層学習表現である。

引き続き、図１を参照し、コンピュータ装置は時間特徴サンプリングルールに従って、処理対象ビデオをサンプリングすることができ、時間特徴サンプリングルールとは、異なるフレームレートでビデオ特徴を時間ディメンションにおいてサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、これらのビデオフレーム特徴シーケンスが異なる時間スケールに対応するということを意味する。コンピュータ装置は、異なる時間スケールに対応するビデオフレーム特徴シーケンス入力をそれぞれ双方向リカレントニューラルネットワークに入力して、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該特徴表現結果は時間スケールにおけるビデオ特徴表現である。最後に、コンピュータ装置は全ての特徴表現結果を第２のニューラルネットワーク、即ちハイブリッドエキスパートモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、これらの予測結果に基づいて、処理対象ビデオのカテゴリを決定し、これによって処理対象ビデオを分類することができる。

一般的なビデオデータでは、ユーザーは多くの場合、ビデオ情報について説明し、コメントし、及びパーソナライズのタグデータを提供し、これにより、オンラインビデオに関連する豊富なテキスト情報を形成する。これらのテキスト情報はビデオ分類の準拠として使用してもよい。

以下、サーバーを実行主体として、本発明における情報処理の方法について説明し、本発明における情報処理の方法は、サーバーに適用できる他、他のコンピュータ装置にも適用できる。図２を参照すると、本発明の実施例における情報処理の方法の一実施例は以下のことを含む。

１０１、処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは１つの時間特徴に対応する。

本実施例では、サーバーはまず処理対象ビデオを取得し、具体的に、図３を参照する。図３は、本発明の実施例における処理対象ビデオの概略図であり、処理対象ビデオには複数のビデオフレームが含まれ、図３の各図は１つのビデオフレームであり、各ビデオフレームは１つの時間特徴に対応する。

なお、処理対象ビデオが一定の再生時間に対応するため、各フレームのビデオフレームは異なる再生時刻に対応し、処理対象ビデオ内の１番目のビデオフレームの時間特徴が「１」であり、２番目のビデオフレームの時間特徴は「２」であると仮定すると、類推して、Ｔ番目のビデオフレームの時間特徴は「Ｔ」である。

１０２、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは１つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する１つ以上のビデオフレームをサンプリングすることを定める。

本実施例では、次に、サーバーは、時間特徴サンプリングルールに従って当該処理対象ビデオに対してサンプリング処理を行う必要がある。なお、時間特徴サンプリングルールには、予め設定された時間特徴とビデオフレーム特徴シーケンスとの間の関係が含まれている。実際の適用では、１つのビデオフレーム特徴シーケンスを取得してもよいし、少なくとも２つの異なる時間スケールのビデオフレーム特徴シーケンスを取得してもよく、異なる時間スケールに対応するビデオフレーム特徴シーケンスは、それらに含まれる各ビデオフレーム特徴に対応する時間特徴の数が異なり、それに応じて、異なる時間スケールに対応するビデオフレーム特徴シーケンスの長さも異なる。例えば、１つの処理対象ビデオには合計１０００個のビデオフレームがあり、これらの１０００個のビデオフレームはそれぞれ１から１０００までの時間特徴に対応し、時間特徴サンプリングルールが各時間特徴が１つのビデオフレーム特徴に対応することであれば、処理対象ビデオの１０００個の時間特徴は１０００個のビデオフレーム特徴に対応し、それに応じて、この１０００個のビデオフレーム特徴からなるビデオフレーム特徴シーケンスの長さは１０００である。時間特徴サンプリングルールが、１００個の時間特徴が１つのビデオフレーム特徴に対応することであれば、処理対象ビデオの１０００個の時間特徴は１０個のビデオフレーム特徴に対応し、それに応じて、この１０個のビデオフレーム特徴からなるビデオフレーム特徴シーケンスの長さは１０である。これによって類推し、ここで繰り返さない。

１０３、第１のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、各ビデオフレーム特徴シーケンスはそれぞれ、１つの特徴表現結果に対応する。

本実施例では、サーバーは、少なくとも１つのビデオフレーム特徴シーケンスを取得した後、異なる時間スケールに対応するビデオフレーム特徴シーケンスを第１のニューラルネットワークモデルに入力し、当該第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、次に、当該第１のニューラルネットワークモデルによって、入力された少なくとも１つのビデオフレーム特徴シーケンスを再帰的に処理して、それに応じて各ビデオフレーム特徴シーケンスの特徴表現結果を出力する。

異なる時間尺度は、異なるビデオフレーム特徴シーケンスの長さであり、ステップ１０２で説明したように、ビデオの合計の長さはＴであり、各時間特徴が１つのビデオフレーム特徴に対応すると仮定すると、ビデオフレーム特徴シーケンスの長さはＴ/１である。１０個の時間特徴が１つのビデオフレーム特徴に対応する場合、ビデオフレーム特徴シーケンスの長さはＴ/１０である。

１０４、第２のニューラルネットワークモデルによって少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は、処理対象ビデオのカテゴリを決定するために使用される。各ビデオフレーム特徴シーケンスはそれぞれ、１つの予測結果に対応し、この実施例では、サーバーは、各ビデオフレーム特徴シーケンスに対応する特徴表現結果をそれぞれ第２のニューラルネットワークモデルに入力し、次に、第２のニューラルネットワークモデルによって、入力された各特徴表現結果を処理した後、各特徴表現結果に対応する予測結果を出力することができる。最後に、サーバーは予測結果に基づいて処理対象ビデオのカテゴリを決定することができる。

処理対象ビデオのカテゴリは「スポーツ」、「ニュース」、「音楽」、「アニメ」、及び「ゲーム」などを含むことができ、本明細書では限定しない。

本発明の実施例では、情報処理の方法を提供し、まず、サーバーは処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは１つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、サーバーはさらに、少なくとも１つのビデオフレーム特徴シーケンスを第１のニューラルネットワークモデルに入力して、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、最後に、サーバーは少なくともビデオフレーム特徴シーケンスに対応する特徴表現結果を第２のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。

任意選択で、上記の図２に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第１の選択可能実施例では、処理対象ビデオを取得した後、
畳み込みニューラルネットワークＣＮＮを使用して処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得することと、
各ビデオフレームに対応する時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定し、時間特徴シーケンスがサンプリングを行うために使用されることと、
を含んでもよい。

本実施例では、サーバーは処理対象ビデオを取得した後、インセプション（ｉｎｃｅｐｔｉｏｎ）構造を有する畳み込みニューラルネットワーク（ｃｏｎｖｏｌｕｔｉｏｎａｌｎｅｕｒａｌｎｅｔｗｏｒｋ、ＣＮＮ）を使用して処理対象ビデオにおける各ビデオフレームを処理して、次に、各ビデオフレームに対応する時間特徴を抽出することができる。最後に、サーバーは各ビデオフレームの時間特徴に基づいて、処理対象ビデオの時間特徴シーケンスを決定する。処理対象ビデオの１番目のビデオフレームが１であり、２番目のビデオフレームは２であると仮定すると、類推して、最後のビデオフレームはＴであり、処理対象ビデオの時間特徴シーケンスがＴ（秒）であることを決定することができる。

以下、ｉｎｃｅｐｔｉｏｎ構造のＣＮＮについて説明し、図４を参照する。図４は、本発明の実施例におけるインセプション構造を有する畳み込みニューラルネットワークの概略図であり、図４に示すように、ｉｎｃｅｐｔｉｏｎ構造には３つの異なるサイズの畳み込み、即ち、１×１畳み込み層、３×３畳み込み層、５×５畳み込み層、及び３×３最大プーリング層が含まれ、最後の完全接続層を除去して、完全接続層の代わりにグローバル平均プーリング層（画像サイズを１×１に変更する）を使用する。

ネットワーク機能を強化するために、ネットワークの深さを増やし、ネットワーク幅を増やすことができる。しかし、過剰適合（オーバーフィット）を減らすために、自由パラメータを削減する必要がある。そのため、ｉｎｃｅｐｔｉｏｎ構造の同じ層には、畳み込み１×１畳み込み層、３×３畳み込み層、５×５畳み込み層３つの異なる畳み込みテンプレートがあり、それらは、異なるサイズで特徴抽出を行うことができ、ハイブリッドモデルでもある。最大プーリング層自体にも特徴抽出の機能があり、畳み込みとは異なり、パラメータがなく過剰適合することがなく、一つのブランチとしても機能する。しかし、直接このように行うと、ネットワーク全体の計算量は比較的大きくなり、レベルは深くならないため、３×３畳み込みと５×５畳み込みの前に１×１の畳み込みを行い、入力のチャネルの数を低下し、このようにして、ネットワークが深くなる一方、計算量が少なくなる。

次に、本発明の実施例では、サーバーは、処理対象ビデオを取得した後、畳み込みニューラルネットワークを使用して当該処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得してもよく、これらの時間特徴は、全体の処理対象ビデオの時間特徴シーケンスを構成する。上記の方法によって、畳み込みニューラルネットワークを利用して各ビデオフレームを訓練及び処理し、これは、時間特徴抽出の正確性及び效果を改善するのに有利である。

任意選択で、上記の図２に対応する第１の実施例を基に、本発明の実施例によって提供される情報処理の方法の第２の選択可能実施例では、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得することは、
時間特徴サンプリングルールに従って少なくとも１つの時間ウィンドウを決定し、各時間ウィンドウには処理対象ビデオにおける少なくとも１つのビデオフレームが含まれることと、
時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出することと、
を含んでもよい。

本実施例では、サーバーが少なくとも１つのビデオフレーム特徴シーケンスを取得する方法について説明する。

具体的に、まず、複数のスケールのビデオフレーム特徴シーケンスのサンプリングを行うために、時間特徴サンプリングルールに従って、少なくとも１つの時間ウィンドウを定義する。処理対象ビデオが合計Ｔ秒であり、１フレームビデオフレーム、５フレームビデオフレーム及び１０フレームビデオフレームをそれぞれ時間ウィンドウとして、当該時間ウィンドウ内のビデオフレーム特徴を平均して、３つの異なるスケールにおけるビデオフレーム特徴シーケンスを取得することを想定する。Ｔ秒が１００フレームと等しく、１フレームを時間ウィンドウとする場合、ビデオフレーム特徴シーケンスの長さはＴ/１=Ｔである。１０フレームを時間ウィンドウとする場合、最後に得られるビデオフレーム特徴シーケンスの長さはＴ/１０である。よって、ビデオフレーム特徴シーケンスの長さは時間ウィンドウの大きさに関連する。

時間ウィンドウの大きさは人為的に事前に定義してもよく、１つの時間ウィンドウ内のビデオフレームの数が多いほど、該時間ウィンドウに基づくビデオ分類の精度が粗くなり、各時間ウィンドウにおけるコンテンツについて、「１フレーム」のコンテンツになるように平均化操作を行う。

また、本発明の実施例では、異なる時間スケールでビデオフレーム特徴シーケンスを抽出する方法について説明し、即ち、まず、時間特徴サンプリングルールに従って少なくとも１つの時間ウィンドウを決定し、各時間ウィンドウには処理対象ビデオにおける少なくとも１つのビデオフレームが含まれ、次に、時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出する。上記の方法によって、異なるスケールにおけるビデオフレーム特徴シーケンスを取得することができ、これにより、複数の異なるサンプルを取得して特徴訓練を行い、この場合、ビデオ分類結果の正確性を向上させるのに有利である。

任意選択で、上記の図２に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第３の選択可能実施例では、第１のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得することは、
少なくとも１つのビデオフレーム特徴シーケンスを第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分に入力して、第１の表現結果を取得することと、
少なくとも１つのビデオフレーム特徴シーケンスを第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンスのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分に入力して、第２の表現結果を取得することと、
第１の表現結果及び第２の表現結果に基づいて、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算することと、
を含んでもよい。

本実施例では、第１のニューラルネットワークモデルを利用して各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得する方法について説明する。

具体的に、図５を参照する。図５は、本発明の実施例における第１のニューラルネットワークモデルの構造概略図であり、図５に示すように、第１のニューラルネットワークモデルの全体は２つの部分、即ち、ビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分及びビデオフレーム特徴シーケンスのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分を含み、各ビデオフレーム特徴シーケンスを第１のリカレントニューラルネットワーク部分に入力して、対応する第１の表現結果を出力する。それと同時に、各ビデオフレーム特徴シーケンスを第２のリカレントニューラルネットワーク部分に入力して、対応する第２の表現結果を出力する。

最後に、第１の表現結果及び第２の表現結果を直接継ぎ合わせることによって、ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得することができる。

次に、本発明の実施例では、ビデオフレーム特徴シーケンスの抽出を基に、リカレントゲートユニットに基づくリカレントニューラルネットワークを使用してビデオフレーム特徴シーケンスに対して時系列モデリングを行い、さらに、異なる時間スケールの情報をよりよく特徴表現するために、この解決策では第１のニューラルネットワークモデルを使用してビデオ特徴圧縮を行ってもよい。上記の方法によって、リカレントニューラルネットワークについて、ほとんどのビデオの主なコンテンツはビデオ時間の中部で発生するため、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方から処理対象ビデオの時間中心点位置へ特徴圧縮及び表現を行う。これにより、解決策の操作性を改善する。

任意選択で、上記の図２に対応する第３の実施例を基に、本発明の実施例によって提供される情報処理の方法の第４の選択可能実施例では、第１の表現結果及び第２の表現結果に基づいて、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算することは、以下のことを含んでもよい。

次の式を使用して少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する。

その中、

は１つのビデオフレーム特徴シーケンスの特徴表現結果を表し、ｈ^ｆ _T/2は第１の表現結果を表し、ｈ^ｂ _T/2は第２の表現結果を表し、ｘ_ｔは第ｔ時刻のビデオフレーム特徴シーケンスを表し、ＧＲＵ（）はゲート付き回帰型ユニット（ＧＲＵ）ニューラルネットワークを採用して処理することを表し、Ｔは前記処理対象ビデオの総時間を表し、ｔは１からＴまでの１つの整数を表す。

本実施例では、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方からビデオ時間中心点位置へ特徴圧縮及び表現を行うことができる。具体的に、あるスケールのビデオフレーム特徴シーケンスｘ_ｔについて、ｔ∈［１，Ｔ］。

第１のリカレントニューラルネットワーク部分は以下であり、

第２のリカレントニューラルネットワーク部分は以下

である：

その中、ｈ^ｆ _ｔは第１のリカレントニューラルネットワーク部分の中間層の特徴表現であり、第１の表現結果ｈ^ｆ _T/2としても表現でき、ｈ^ｂ _ｔは第２のリカレントニューラルネットワーク部分の中間層の特徴表現であり、第２の表現結果ｈ^ｂ _T/2としても表現でき、ＧＲＵ（）はリカレントゲートユニット関数であり、その具体的な形態は以下のようになる。

その中、σ_ｇはｓｉｇｍｏｉｄ関数を表し、σ_ｈは逆正接関数を表し、Ｗ_ｚ、Ｗ_ｒ、Ｗ_ｔ、Ｕ_ｚ、Ｕ_ｒ及びＵ_ｈは線形変換パラメーター行列であり、異なる添え字はそれぞれ異なる「関数」を表し、ｂ_ｚ、ｂ_ｒ及びｂ_ｈはオフセットパラメーターベクトルである。

は関数の合成を表す。

これにより、第１の表現結果及び第２の表現結果を継ぎ合わせるすることによって、あるスケールに対応する特徴表現結果、即ち、以下を取得することができる。

また、本発明の実施例では、第１の表現結果及び第２の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する方法について説明した。上記の方法によって、予測結果は関連式によって計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。

任意選択で、上記の図２に対応する実施例を基に、本発明の実施例によって提供される情報処理の方法の第５の選択可能実施例では、第２のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得することは、
少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を第２のニューラルネットワークモデルにおける第１のサブモデルに入力して、第３の表現結果を取得することと、
少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を第２のニューラルネットワークモデルにおける第２のサブモデルに入力して、第４の表現結果を取得することと、
第３の表現結果及び第４の表現結果に基づいて、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を計算することと、
を含んでもよい。

本実施例では、第２のニューラルネットワークモデルを利用して各ビデオフレーム特徴シーケンスに対応する予測結果を取得することについて説明する。

具体的に、図６を参照する。図６は、本発明の実施例における第２のニューラルネットワークモデルの構造概略図であり、図６に示すように、全体の第２のニューラルネットワークモデルは２つの部分を含み、それぞれ第１のサブモデル及び第２のサブモデルであり、第１のサブモデルは「ソフトマックス（ｓｏｆｔｍａｘ）関数」とも呼ばれ、第２のサブモデルは「シグモイド（ｓｉｇｍｏｉｄ）関数」とも呼ばれる。各ビデオフレーム特徴シーケンスに対応する特徴表現結果を「ｓｏｆｔｍａｘ関数」に入力して、対応する第３の表現結果を出力する。それと同時に、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を「ｓｉｇｍｏｉｄ関数」に出力して、対応する第４の表現結果を出力する。

各第３の表現結果及び各第４の表現結果を乗算してから、加算することによって、当該ビデオフレーム特徴シーケンスの予測結果が得られる。

次に、本発明の実施例では、第１のニューラルネットワークモデルを使用して特徴表現結果を取得した後、さらに第２のニューラルネットワークモデルを使用して当該特徴表現結果を分類することができる。上記の方法によって、特徴表現結果を非線形変換によってｓｏｆｔｍａｘ関数及びｓｉｇｍｏｉｄ関数の結果をそれぞれ取得し、その後、２つの結果を乗算して加算することによって、分類用の最終的な特徴表現を取得し、これにより、分類の正確性を改善するのに有利である。

任意選択で、上記の図２に対応する第５の実施例を基に、本発明の実施例によって提供される情報処理の方法の第６の選択可能実施例では、第３の表現結果及び第４の表現結果に基づいて、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を計算することは、以下のことを含んでもよい。

次の式を使用して少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果
を計算する。

その中、ｌａｂｌｅは１つのビデオフレーム特徴シーケンスの予測結果を表し、ｇ_ｎは第３の表現結果を表し、ａ_ｎは第４の表現結果を表し、σ_ｇはｓｏｆｔｍａｘ関数を表し、σ_ａはｓｉｇｍｏｉｄ関数を表し、ｈは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、Ｗ_ｇ及びｂ_ｇは第１のサブモデルにおけるパラメータを表し、Ｗ_ａ及びｂ_ａは第２のサブモデルのパラメータを表し、Ｎは特徴表現結果を非線形変換して得られた全体の計算回数を表し、ｎは１からＮまでの１つの整数を表す。

本実施例では、具体的に、対応する式を使用して各ビデオフレーム特徴シーケンスに対応する予測結果を計算して取得することについて説明した。

まず、特徴表現結果を非線形変換して得られたＮ個のｓｏｆｔｍａｘ関数及びｓｉｇｍｏｉｄ関数を取得して利用して、ｓｏｆｔｍａｘ関数の計算結果に対応する第３の表現結果ｇ_ｎを計算し、ｓｉｇｍｏｉｄ関数の計算結果に対応する第４の表現結果ａ_ｎを計算し、なお、第３の表現結果ｇ_ｎの計算及び第４の表現結果ａ_ｎの計算は計算順序がない。

２つの表現が得られた後、乗算操作を行ってから、加算操作を行うことによって、１つのビデオフレーム特徴シーケンスの予測結果が得られる。

また、本発明の実施例では、第３の表現結果及び第４の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する予測結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。

任意選択で、上記の図２及び図２に対応する第１から第６の実施例のいずれか１つを基に、本発明の実施例によって提供される情報処理の方法の第７の選択可能実施例では、第２のニューラルネットワークモデルによって、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得した後、
少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果及び少なくとも１つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算することと、
処理対象ビデオのカテゴリに基づいて処理対象ビデオを分類することと、
を含んでもよい。

本実施例では、サーバーは各ビデオフレーム特徴シーケンスに対応する予測結果及び各ビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算し、分類結果に基づいて当該処理対象ビデオを分類してもよい。

具体的に、予測結果が最大５つあり、長さが５である「０及び１」コードで予測結果を表すと仮定すると、例えば、予測結果が１であるコードは００００１であり、予測結果が３であるコードは００１００であり、類推して、１つの処理対象ビデオには同時に予測結果１及び予測結果３が含まれる場合、当該処理対象ビデオは００１０１として表される。

しかし、処理対象ビデオの全体について、各ビデオフレーム特徴シーケンスに対応する予測結果が得られるため、各予測結果は１以下であり、予測結果は、処理対象ビデオがこのカテゴリに属する可能性を表すことができる。例えば、{０．０１,０．０２,０．９,０．００５,１．０}は合理的な予測結果であり、当該処理対象ビデオが１番目のカテゴリに属する確率は０．０１、即ち、１％であり、２番目のカテゴリに属する確率は０．０２、即ち、２％であり、３番目のカテゴリに属する確率は０．９、即ち、９０％であり、４番目のカテゴリに属する確率は０．００５、即ち、０．５％であり、５番目のカテゴリに属する確率は１、即ち、１００％であることを意味する。

この時、予め設定された重み値を利用して予測結果を計算し、計算に重み付けアルゴリズムが採用され、各重み値は、線形回帰によって学習された、各ビデオフレーム特徴シーケンスの重要度を表す数値であり、重み値の合計は１であり、例えば、{０．１, ０．４, ０．５}である。以下、具体的に、処理対象ビデオのカテゴリを計算して取得する方法について説明する。

重み値が{０．２,０．３,０．５}であり、ビデオフレーム特徴シーケンス１の予測結果は{０．０１,０．０２,０．９,０．００５,１．０}であり、ビデオフレーム特徴シーケンス２の予測結果は{０．０２,０．０１,０．９,０．０００，０．９}であり、ビデオフレーム特徴シーケンス３の予測結果は{０．２,０．３,０．８,０．０１，０．７}である場合、処理対象ビデオのカテゴリは次のように表される。
０．２×０．０１+０．３×０．０２+０．５×０．２,０．２×０．０２+０．３×０．０１+０．５×０．３,０．２×０．９+０．３×０．９+ ０．５×０．８,０．２×０．００５+０．３×０．０００+０．５×０．０１,０．２×１．０+０．３×０．９+０．５×０．７
={０．１０８,０．１５７,０．８５,０．００７５,０．８２}

上記の式の結果から分かるように、処理対象ビデオが３番目のカテゴリに属する確率が最も高く、次に、５番目のカテゴリであり、そのため、処理対象ビデオを３番目のカテゴリのビデオリストに優先的に表示することができる。

さらに、本発明の実施例では、サーバーは、各ビデオフレーム特徴シーケンスに対応する予測結果を取得した後、各ビデオフレーム特徴シーケンスに対応する予測結果及び各ビデオフレーム特徴シーケンスに対応する重み値に基づいて、処理対象ビデオのカテゴリを計算し、最後に、処理対象ビデオのカテゴリに基づいて処理対象ビデオを分類してもよい。上記の方法によって、予測結果が時間特徴を参照するため、処理対象ビデオを分析するときに、ビデオ分類の能力を改善することができ、これにより、パーソナライズ推奨を実現し、より優れた実用性を持っている。

以下、本発明におけるサーバーについて詳細に説明し、図７を参照する。図７は、本発明の実施例におけるサーバーの一実施例の概略図であり、サーバー２０は、
処理対象ビデオを取得するための第１の取得モジュール２０１であって、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応する第１の取得モジュール２０１と、
時間特徴サンプリングルールに従って前記第１の取得モジュール２０１が取得した前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するための第２の取得モジュール２０２であって、前記時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係である第２の取得モジュール２０２と、
第１のニューラルネットワークモデルによって、前記第２の取得モジュール２０２が取得した前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第１の入力モジュール２０３であって、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルである第１の入力モジュール２０３と、
第２のニューラルネットワークモデルによって、前記第１の入力モジュール２０３が取得した前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得するための第２の入力モジュール２０４であって、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される第２の入力モジュール２０４と、
を含む。

本実施例では、第１の取得モジュール２０１は処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは１つの時間特徴に対応し、第２の取得モジュール２０２は時間特徴サンプリングルールに従って前記第１の取得モジュール２０１が取得した前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、第１の入力モジュール２０３は第１のニューラルネットワークモデルによって、前記第２の取得モジュール２０２が取得した前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、当該第１のニューラルネットワークモデルはリカレントニューラルネットワークモデルであり、第２の入力モジュール２０４は第２のニューラルネットワークモデルによって、前記第１の入力モジュール２０３が取得した前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果は前記処理対象ビデオのカテゴリを決定するために使用される。

本発明の実施例では、サーバーを提供し、まず、当該サーバーは処理対象ビデオを取得し、処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームは１つの時間特徴に対応し、次に、時間特徴サンプリングルールに従って処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、時間特徴サンプリングルールは時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、サーバーは、さらに少なくとも１つのビデオフレーム特徴シーケンスを第１のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、最後に、サーバーは各ビデオフレーム特徴シーケンスに対応する特徴表現結果を第２のニューラルネットワークモデルに入力して、各ビデオフレーム特徴シーケンスに対応する予測結果を取得し、予測結果は処理対象ビデオのカテゴリを決定するために使用される。上記の方法によって、ビデオを分類するプロセスでは、時間ディメンションにおけるビデオの特徴変化も考慮するため、ビデオコンテンツをよりよく表現し、ビデオ分類の精度を向上させ、ビデオ分類の效果を改善することができる。

任意選択で、上記の図７に対応する実施例を基に、図８を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、前記サーバー２０はさらに、
前記第１の取得モジュール２０１が処理対象ビデオを取得した後、畳み込みニューラルネットワークＣＮＮを使用して前記処理対象ビデオにおける各ビデオフレームを処理して、前記各ビデオフレームに対応する前記時間特徴を取得するための処理モジュール２０５と、
前記処理モジュール２０５によって処理された前記各ビデオフレームに対応する時間特徴に基づいて、前記処理対象ビデオの時間特徴シーケンスを決定するための決定モジュール２０６であって、前記時間特徴シーケンスはサンプリングを行うために使用される決定モジュール２０６と、
を含む。

また、本発明の実施例では、サーバーは、処理対象ビデオを取得した後、畳み込みニューラルネットワークを使用して当該処理対象ビデオにおける各ビデオフレームを処理して、各ビデオフレームに対応する時間特徴を取得し、これらの時間特徴は、処理対象ビデオの全体の時間特徴シーケンスを構成する。上記の方法によって、畳み込みニューラルネットワークを利用して各ビデオフレームを訓練及び処理し、これは、時間特徴抽出の正確性及び效果を改善するのに有利である。

任意選択で、上記の図８に対応する実施例を基に、図９を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、
前記第２の取得モジュール２０２は、
前記時間特徴サンプリングルールに従って少なくとも１つの時間ウィンドウを決定するための決定ユニット２０２１であって、各時間ウィンドウは前記処理対象ビデオにおける少なくとも１つのビデオフレームを含む決定ユニット２０２１と、
前記時間特徴シーケンスから前記決定ユニット２０２１によって決定された各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出するための抽出ユニット２０２２と、
を含む。

また、本発明の実施例では、異なるスケールでのビデオフレーム特徴シーケンスを抽出する方法について説明した。即ち、まず、時間特徴サンプリングルールに従って少なくとも１つの時間ウィンドウを決定し、各時間ウィンドウは処理対象ビデオにおける少なくとも１つのビデオフレームを含み、その後、時間特徴シーケンスから各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出する。上記の方法によって、異なるスケールでのビデオフレーム特徴シーケンスを取得することができ、これにより、複数の異なるサンプルを取得して特徴訓練を行い、ビデオ分類結果の正確性を向上させるのに有利である。

任意選択で、上記の図９に対応する実施例を基に、図１０を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、
前記第１の入力モジュール２０３は、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分に入力して、第１の表現結果を取得するための第１の取得ユニット２０３１と、
前記各ビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分に入力して、第２の表現結果を取得するための第２の取得ユニット２０３２と、
前記第１の取得ユニット２０３１が取得した前記第１の表現結果及び前記第２の取得ユニット２０３２が取得した前記第２の表現結果に基づいて、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するための第１の計算ユニット２０３３と、
を含む。

また、本発明の実施例では、ビデオフレーム特徴シーケンスの抽出を基に、リカレントゲートユニットに基づくリカレントニューラルネットワークを使用してビデオフレーム特徴シーケンスに対して時系列モデリングを行ってもよく、さらに、異なる時間スケールの情報をよりよく特徴表現するために、この解決策では、第１のニューラルネットワークモデルを使用してビデオ特徴圧縮を行ってもよい。上記の方法によって、リカレントニューラルネットワークについて、ほとんどのビデオの主なコンテンツはビデオ時間の中部で発生するため、双方向リカレントニューラルネットワークを使用してそれぞれ前方及び後方から処理対象ビデオの時間中心点位置へ特徴圧縮及び表現を行う。これにより、解決策の操作性を改善する。

任意選択で、上記の図１０に対応する実施例を基に、図１１を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、前記第１の計算ユニット２０３３は、
次の式を使用して少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するための第１の計算サブユニット２０３３１を含む。

その中、前記ｈは１つのビデオフレーム特徴シーケンスの特徴表現結果を表し、前記ｈ^ｆ _Ｔ／２は前記第１の表現結果を表し、前記ｈ^ｂ _Ｔ／２は前記第２の表現結果を表し、前記ｘ_ｔは第ｔ時刻の前記ビデオフレーム特徴シーケンスを表し、前記ＧＲＵ（）はゲート付き回帰型ユニット（ＧＲＵ）ニューラルネットワークを採用して処理することを表し、前記Ｔは前記処理対象ビデオの総時間を表し、前記ｔは１から前記Ｔまでの１つの整数を表す。

また、本発明の実施例では、具体的に、第１の表現結果及び第２の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する特徴表現結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。

任意選択で、上記の図７に対応する実施例を基に、図１２を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、
前記第２の入力モジュール２０４は、
前記各ビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のニューラルネットワークモデルにおける第１のサブモデルに入力して、第３の表現結果を取得するための第３の取得ユニット２０４１と、
前記各ビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のニューラルネットワークモデルにおける第２のサブモデルに入力して、第４の表現結果を取得するための第４の取得ユニット２０４２と、
前記第３の取得ユニット２０４１が取得した前記第３の表現結果及び前記第４の取得ユニット２０４２が取得した前記第４の表現結果に基づいて、前記各ビデオフレーム特徴シーケンスに対応する予測結果を計算するための第２の計算ユニット２０４３と、
を含む。

また、本発明の実施例では、第１のニューラルネットワークモデルを使用して特徴表現結果を取得した後、さらに、第２のニューラルネットワークモデルを使用して当該特徴表現結果を分類してもよい。上記の方法によって、特徴表現結果を非線形変換することによってｓｏｆｔｍａｘ関数及びｓｉｇｍｏｉｄ関数をそれぞれ取得し、その後、２つの関数の計算結果を乗算してから加算し、分類用の最終的な特徴表現を取得し、これにより、分類の正確性を向上させるのに有利である。

任意選択で、上記の図１２に対応する実施例を基に、図１３を参照し、本発明の実施例によって提供されるサーバー２０の他の実施例では、
前記第２の計算ユニット２０４３は、
次の式を使用して前記各ビデオフレーム特徴シーケンスに対応する予測結果を計算するための第２の計算サブユニット２０４３１を含む。

その中、前記ｌａｂｌｅは１つのビデオフレーム特徴シーケンスの予測結果を表し、前記ｇ_ｎは前記第３の表現結果を表し、前記ａ_ｎは前記第４の表現結果を表し、前記σ_ｇはｓｏｆｔｍａｘ関数を表し、前記σ_ａはｓｉｇｍｏｉｄ関数を表し、前記ｈは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、前記Ｗ_ｇ及び前記ｂ_ｇは前記第１のサブモデルにおけるパラメータを表し、前記Ｗ_ａ及び前記ｂ_ａは前記第２のサブモデルのパラメータを表し、前記Ｎは前記特徴表現結果を非線形変換して得られた全体の計算回数を表し、前記ｎは１から前記Ｎまでの１つの整数を表す。

また、本発明の実施例では、具体的に、第３の表現結果及び第４の表現結果に基づいて、各ビデオフレーム特徴シーケンスに対応する予測結果を計算する方法について説明した。上記の方法によって、関連式を利用して予測結果を計算して取得することができ、解決策の実施に実行可能な方法を提供し、これにより、解決策の実行可能性と操作性が向上する。

任意選択で、上記の図７から図１３のいずれか１つに対応する実施例を基に、図１４を参照して、本発明の実施例によって提供されるサーバー２０の他の実施例では、
前記サーバー２０はさらに、
前記第２の入力モジュール２０４が第２のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得した後、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する前記予測結果及び前記少なくとも１つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、前記処理対象ビデオのカテゴリを計算するための計算モジュール２０７と、
前記計算モジュール２０７によって計算された前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するための分類モジュール２０８と、
を含む。

図１５は、本発明の実施例によって提供されるサーバーの構造概略図であり、当該サーバー３００は配置又は性能の違いによって大きな差があり、１つ又は複数の中央処理装置（ｃｅｎｔｒａｌｐｒｏｃｅｓｓｉｎｇｕｎｉｔｓ、ＣＰＵ）３２２（例えば、１つ又は複数のプロセッサー）とメモリ３３２、アプリケーションプログラム３４２又はデータ３４４を記憶する１つ又は複数の記憶媒体３３０（例えば１つ又は複数の大容量記憶装置）を含むことができる。メモリ３３２及び記憶媒体３３０は短期記憶又は永続的記憶であり得る。記憶媒体３３０に記憶されるプログラムは、１つ又は複数のモジュール（図示せず）を含むことができ、各モジュールは、サーバー内の一連の指令操作を含むことができる。さらに、中央処理装置３２２は記憶媒体３３０と通信して、サーバー３００で記憶媒体３３０内の一連の指令操作を実行するように設置できる。

サーバー３００は、１つ又は複数の電源３２６、１つ又は複数の有線又は無線ネットワークインタフェース３５０、１つ又は複数の入出力インタフェース３５８、及び／又は、例えばＷｉｎｄｏｗｓＳｅｒｖｅｒＴＭ、ＭａｃＯＳＸＴＭ、ＵｎｉｘＴＭ、ＬｉｎｕｘＴＭ、ＦｒｅｅＢＳＤＴＭなどの１つ又は複数のオペレーティングシステム３４１を含んでもよい。

上記実施例においてサーバーによって実行されるステップは当該図１５に示すサーバー構造に基づいて実行することができる。

本発明の実施例では、当該サーバーに含まれるＣＰＵ３２２は、
処理対象ビデオを取得し、前記処理対象ビデオには複数のビデオフレームが含まれ、各ビデオフレームが１つの時間特徴に対応し、
時間特徴サンプリングルールに従って、前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得し、前記時間特徴サンプリングルールが時間特徴とビデオフレーム特徴シーケンスとの間の対応関係であり、
第１のニューラルネットワークモデルによって、前記少なくとも１つのビデオフレーム特徴シーケンスを処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得し、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであり、
第２のニューラルネットワークモデルによって前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を処理して、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を取得し、前記予測結果が前記処理対象ビデオのカテゴリを決定するために使用される、
という機能を有する。

任意選択で、ＣＰＵ３２２はさらに、
畳み込みニューラルネットワークＣＮＮを採用して前記処理対象ビデオにおける各ビデオフレームを処理して、前記各ビデオフレームに対応する時間特徴を取得するステップと、
前記各ビデオフレームに対応する時間特徴に基づいて、前記処理対象ビデオの時間特徴シーケンスを決定し、前記時間特徴シーケンスがサンプリングを行うために使用されるステップと、
を実行するために使用される。

任意選択で、ＣＰＵ３２２は具体的に、
前記時間特徴サンプリングルールに従って、少なくとも１つの時間ウィンドウを決定し、各時間ウィンドウには前記処理対象ビデオにおける少なくとも１つのビデオフレームが含まれるステップと、
前記時間特徴シーケンスから前記各時間ウィンドウに対応するビデオフレーム特徴シーケンスを抽出するステップと、
を実行するために使用される。

任意選択で、ＣＰＵ３２２は具体的に、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分に入力して、第１の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分に入力して、第２の表現結果を取得するステップと、
前記第１の表現結果及び前記第２の表現結果に基づいて、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するステップと、
を実行するために使用される。

任意選択で、ＣＰＵ３２２は具体的に、
次の式を使用して前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴
表現結果を計算するステップを実行するために使用される。

任意選択で、ＣＰＵ３２２は具体的に、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のニューラルネットワークモデルにおける第１のサブモデルに入力して、第３の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のニューラルネットワークモデルにおける第２のサブモデルに入力して、第４の表現結果を取得するステップと、
前記第３の表現結果及び前記第４の表現結果に基づいて、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップと、
を実行するために使用される。

任意選択で、ＣＰＵ３２２は具体的に、
次の式を使用して前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップを実行するために使用される。

任意選択で、ＣＰＵ３２２は、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する前記予測結果及び前記少なくとも１つのビデオフレーム特徴シーケンスに対応する重み値に基づいて、前記処理対象ビデオのカテゴリを計算するステップと、
前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するステップと、
を実行するために使用される。

本発明の実施例は、プログラムコードを記憶するための記憶媒体をさらに提供し、当該プログラムコードは、上記の各実施例に記載される情報処理方法のいずれかの実施形態を実行するために使用される。

上記の実施例では、ソフトウェア、ハードウェア、ファームウェア、又はそれらの任意の組み合わせによって全体的又は部分的に実現することができる。ソフトウェアで実現する場合、全体又は一部をコンピュータプログラム製品の形で実現できる。

前記コンピュータプログラム製品には１つ又は複数のコンピュータ指令が含まれる。前記コンピュータプログラム指令がコンピュータにロードされて実行されるときに、本発明の実施例に従って説明されるプロセス又は機能は、全体的又は部分的に生成される。前記コンピュータは汎用コンピュータ、専用コンピュータ、コンピュータネットワーク、又はその他のプログラマブル装置である。前記コンピュータ指令はコンピュータ可読記憶媒体に記憶されるか、又は１つのコンピュータ可読記憶媒体から他のコンピュータ可読記憶媒体に伝送することができ、例えば、前記コンピュータ指令は、ウェブサイト、コンピュータ、サーバー又はデータセンターから有線（例えば同軸ケーブル、光ファイバー、デジタル加入者線（ｄｉｇｉｔａｌｓｕｂｓｃｒｉｂｅｒｌｉｎｅ、ＤＳＬ）又は無線（例えば赤外線、ワイヤレス）によって他のウェブサイト、コンピュータ、サーバー又はデータセンターに伝送することができる。前記コンピュータ可読記憶媒体は、コンピュータが記憶できる任意の使用可能な媒体、又は１つ又は複数の使用可能な媒体集積を含むサーバー、データセンターなどのデータ記憶装置である。前記使用可能な媒体は、磁気性媒体、（例えば、フロッピー（登録商標）ディスク、ハードディスク、磁気テープ）、光学媒体（例えば、デジタル多用途ディスク（ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｃ、ＤＶＤ（登録商標）））、又は半導体媒体（例えばソリッドステートディスク（ｓｏｌｉｄｓｔａｔｅｄｉｓｋ、ＳＳＤ）などであり得る。

当業者は、説明の便宜上及び簡潔さのために、上記のシステム、装置、及びユニットの特定の作業プロセスが、上記の方法の実施例のうち対応するプロセスを参照できることを明確に理解でき、ここで説明を繰り返しない。

本発明によって提供されるいくつかの実施例では、開示されたシステム、装置及び方法は他の形態で実現できることを理解すべきである。例えば、上記の装置の実施例は単なる例示であり、例えば、前記ユニットの分割は、論理的な機能の分割にすぎず、実際の実現には別の分割方法があり得る。例えば、複数のユニットやコンポーネントは、別のシステムに組み合わせたり、集積したり、或いは、いくつかの特徴を省略したり、実行しないことができる。加えて、図示又は議論される相互の結合又は直接結合又は通信接続は、何らかのインタフェース、装置又はユニットを介した間接結合又は通信接続であり得、電気的、機械的又は他の形態であり得る。

分離部材として説明されている前記ユニットは、物理的に分離されている場合とされていない場合がある。ユニットとして表示される部材は、物理ユニットである場合とそうでない場合があり、つまり、１か所に配置されてもよいし、複数のネットワークユニットに分散されてもよい。実際のニーズに応じて、ユニットのいくつか又は全てを選択して、本実施例の解決策の目的を達成することができる。

また、本発明の各実施例における各機能ユニットは１つの処理ユニットに集積されてもよく、各ユニットは物理的に別個に存在してもよく、又は２つ以上のユニットが１つのユニットに集積されてもよい。上記の集積されたユニットはハードウェアの形で実現されてもよいし、ソフトウェア機能ユニットの形で実現されてもよい。

前記集積されたユニットは、ソフトウェア機能ユニットの形で実現され、スタンドアロン製品として販売又は使用される場合、１つのコンピュータ読み取り可能な記憶媒体に記憶することができる。そのような理解に基づいて、本発明の技術的解決策は、本質的又は従来技術に貢献する部分又は当該技術的解決策の全部又は一部がソフトウェア製品の形で具現化され得、当該コンピュータソフトウェア製品は１つの記憶媒体に記憶され、本発明の各実施例で説明した方法のステップの全部又は一部をコンピュータ装置（パーソナルコンピュータ、サーバー、又はネットワーク装置などであってもよい）に実行させるための複数の指令を含む。上記の記憶媒体は、Ｕディスク、モバイルハードディスク、読み取り専用メモリ（ｒｅａｄ-ｏｎｌｙｍｅｍｏｒｙ、ＲＯＭ）、ランダムアクセスメモリ（ｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ、ＲＡＭ）、磁気ディスク、又は光ディスクなどの任意のプログラムコードを記憶できる媒体を含む。

上記のように、上記の実施例は、本発明の技術的解決策を例示するためのものであり、限定しない。本発明について上記の実施例を参照して詳細に説明したが、当業者は、依然として上記の実施例で説明した技術的解決策を修正するか、又はいくつかの技術的特徴を同等に置換できることを理解すべきである。本発明の修正及び置換は、対応する技術的解決策が本発明の実施例の技術的解決策の精神及び範囲から逸脱することを引き起こすことはない。

Claims

コンピュータ装置によって実行されるビデオ分類の方法であって、
処理対象ビデオを取得するステップであり、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するステップであり、前記時間特徴サンプリングルールは１つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する１つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは１つ以上のビデオフレーム特徴を含むステップと、
第１のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスを入力して、前記第１のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであり、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第１のニューラルネットワークモデルがリカレントニューラルネットワークモデルであるステップと、
第２のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第２のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスの各々について１つ以上の予測結果を取得するステップであり、前記１つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の１つ以上のカテゴリの各々に属する可能性を示すステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスの各々について、１つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の１つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
を含む方法。
コンピュータ装置によって実行される情報処理の方法であって、
処理対象ビデオを取得するステップであり、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するステップであり、前記時間特徴サンプリングルールは１つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する１つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは１つ以上のビデオフレーム特徴を含むステップと、
第１のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスを入力して、前記第１のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであり、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第１のニューラルネットワークモデルはリカレントニューラルネットワークモデルであるステップと、
第２のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第２のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスの各々について１つ以上の予測結果を取得するステップであり、前記１つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の１つ以上のカテゴリの各々に属する可能性を示すステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスの各々について、１つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の１つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
を含む方法。
前記処理対象ビデオを取得した後、前記方法は、
畳み込みニューラルネットワーク（ＣＮＮ）に前記処理対象ビデオにおける各ビデオフレームを入力して、前記畳み込みニューラルネットワークの出力として前記各ビデオフレームに対応する前記時間特徴を取得するステップをさらに含む請求項２に記載の方法。
前記時間特徴サンプリングルールは、１つのビデオフレーム特徴に対応する時間特徴の数を時間ウィンドウとして定め、複数の前記時間ウィンドウに対応する１つ以上のビデオフレームをサンプリングすることを定め、
前記時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するステップは、
前記時間特徴サンプリングルールに従って複数の時間ウィンドウの各々に対応する１つ以上のビデオフレームをサンプリングすることにより、異なる長さを有する複数のビデオフレーム特徴シーケンスを取得する、請求項３に記載の方法。
前記第１のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスを入力して、前記第１のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップは、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分に入力して、第１の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分に入力して、第２の表現結果を取得するステップと、
前記第１の表現結果及び前記第２の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップと、
を含む請求項２に記載の方法。
前記第１の表現結果及び前記第２の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップは、
次の式を使用して前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を計算するステップを含み、

なお、前記ｈは１つのビデオフレーム特徴シーケンスの特徴表現結果を表し、前記ｈ^ｆ _Ｔ／２は前記第１の表現結果を表し、前記ｈ^ｂ _Ｔ／２は前記第２の表現結果を表し、前記ｘ_ｔは第ｔ時刻の前記ビデオフレーム特徴シーケンスを表し、前記ＧＲＵ（）はゲート付き回帰型ユニット（ＧＲＵ）ニューラルネットワークを採用して処理することを表し、前記Ｔは前記処理対象ビデオの総時間を表し、前記ｔは１から前記Ｔまでの１つの整数を表す請求項５に記載の方法。
前記第２のニューラルネットワークモデルは、ｓｏｆｔｍａｘ関数に基づく第１のサブモデルと、ｓｉｇｍｏｉｄ関数に基づく第２のサブモデルと、を含み、
前記第２のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第２のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスの各々について１つ以上の予測結果を取得するステップは、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第１のサブモデルに入力して、第３の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のサブモデルに入力して、第４の表現結果を取得するステップと、
前記第３の表現結果及び前記第４の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップと、
を含む請求項２に記載の方法。
前記第３の表現結果及び前記第４の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップは、
次の式を使用して前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を計算するステップを含み、

なお、前記ｌａｂｌｅは１つのビデオフレーム特徴シーケンスの予測結果を表し、前記ｇ_ｎは前記第３の表現結果を表し、前記ａ_ｎは前記第４の表現結果を表し、前記σ_ｇはｓｏｆｔｍａｘ関数を表し、前記σ_ａはｓｉｇｍｏｉｄ関数を表し、前記ｈは前記ビデオフレーム特徴シーケンスの特徴表現結果を表し、前記Ｗ_ｇ及び前記ｂ_ｇは前記第１のサブモデルにおけるパラメータを表し、前記Ｗ_ａ及び前記ｂ_ａは前記第２のサブモデルのパラメータを表し、前記Ｎは前記特徴表現結果を非線形変換して得られた全体の計算回数を表し、前記ｎは１から前記Ｎまでの１つの整数を表す請求項７に記載の方法。
前記方法は、
前記処理対象ビデオの前記決定したカテゴリに基づいて前記処理対象ビデオを分類するステップをさらに含む請求項１から８のいずれか１項に記載の方法。
処理対象ビデオを取得するための第１の取得モジュールであって、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応する第１の取得モジュールと、
時間特徴サンプリングルールに従って、前記第１の取得モジュールが取得した前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するための第２の取得モジュールであって、前記時間特徴サンプリングルールは１つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する１つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは１つ以上のビデオフレーム特徴を含む第２の取得モジュールと、
第１のニューラルネットワークモデルに、前記第２の取得モジュールが取得した前記少なくとも１つのビデオフレーム特徴シーケンスを入力して、前記第１のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するための第１の入力モジュールであって、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第１のニューラルネットワークモデルはリカレントニューラルネットワークモデルである第１の入力モジュールと、
第２のニューラルネットワークモデルに、前記第１の入力モジュールによって入力されて得られた前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第２のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスの各々について１つ以上の予測結果を取得するための第２の入力モジュールであって、前記１つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の１つ以上のカテゴリの各々に属する可能性を示す第２の入力モジュールと、
前記少なくとも１つのビデオフレーム特徴シーケンスの各々について、１つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の１つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定する計算モジュールと、
を含むサーバー。
前記計算モジュールによって計算された前記処理対象ビデオのカテゴリに基づいて前記処理対象ビデオを分類するための分類モジュールと、
をさらに含む請求項１０に記載のサーバー。
メモリ、プロセッサー及びバスシステムを含むサーバーであり、
前記メモリはプログラムを記憶するために使用され、
前記プロセッサーは前記メモリ内のプログラムを実行するために使用され、具体的に、
処理対象ビデオを取得するステップであって、前記処理対象ビデオに複数のビデオフレームが含まれ、各ビデオフレームが前記処理対象ビデオの中の当該ビデオフレームの再生順序に関連する時間特徴に対応するステップと、
時間特徴サンプリングルールに従って前記処理対象ビデオをサンプリングして、少なくとも１つのビデオフレーム特徴シーケンスを取得するステップであって、前記時間特徴サンプリングルールは１つのビデオフレーム特徴に対応する時間特徴の数を定め、該時間特徴の数に対応する１つ以上のビデオフレームをサンプリングすることを定め、前記ビデオフレーム特徴シーケンスは１つ以上のビデオフレーム特徴を含むステップと、
第１のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスを入力して、前記第１のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を取得するステップであって、前記特徴表現結果は時間スケールにおいてビデオ特徴を表し、前記第１のニューラルネットワークモデルはリカレントニューラルネットワークモデルであるステップと、
第２のニューラルネットワークモデルに前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を入力して、前記第２のニューラルネットワークモデルの出力として前記少なくとも１つのビデオフレーム特徴シーケンスの各々について１つ以上の予測結果を取得するステップであって、前記１つ以上の予測結果の各々はビデオフレーム特徴シーケンスが所与の１つ以上のカテゴリの各々に属する可能性を示すステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスの各々について、１つ以上の予測結果の各々と当該ビデオフレーム特徴シーケンスの重要度に対応する重みとの積を計算し、前記処理対象ビデオから取得した全部のビデオフレーム特徴シーケンスについて前記積を合計した値を前記処理対象ビデオが当該カテゴリに属する確率として決定し、前記所与の１つ以上のカテゴリのうち最も高い確率を有するカテゴリを前記処理対象ビデオのカテゴリとして決定するステップと、
が含まれ、
前記バスシステムは、前記メモリ及び前記プロセッサーが通信するように、前記メモリ及び前記プロセッサーを接続するサーバー。
前記プロセッサーは、具体的に、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンスのうち時系列で前半のビデオフレーム特徴シーケンスを時系列の順序で入力される第１のリカレントニューラルネットワーク部分に入力して、第１の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスを前記第１のニューラルネットワークモデルにおいて前記少なくとも１つのビデオフレーム特徴シーケンのうち時系列で後半のビデオフレーム特徴シーケンスを時系列の逆順序で入力される第２のリカレントニューラルネットワーク部分に入力して、第２の表現結果を取得するステップと、
前記第１の表現結果及び前記第２の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を表すステップと、
を実行する請求項１２に記載のサーバー。
前記第２のニューラルネットワークモデルは、ｓｏｆｔｍａｘ関数に基づく第１のサブモデルと、ｓｉｇｍｏｉｄ関数に基づく第２のサブモデルと、を含み、
前記プロセッサーは、具体的に、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第１のサブモデルに入力して、第３の表現結果を取得するステップと、
前記少なくとも１つのビデオフレーム特徴シーケンスに対応する特徴表現結果を前記第２のサブモデルに入力して、第４の表現結果を取得するステップと、
前記第３の表現結果及び前記第４の表現結果の継ぎ合わせとして、前記少なくとも１つのビデオフレーム特徴シーケンスに対応する予測結果を表すステップと、
を実行する請求項１２に記載のサーバー。
コンピュータ可読記憶媒体であって、
前記コンピュータ可読記憶媒体はプログラムコードを記憶し、
前記プログラムコードは、請求項２から９のいずれか１項に記載の方法を実行するコンピュータ可読記憶媒体。
指令が含まれるコンピュータプログラムであって、
前記指令がコンピュータで実行されるときに、請求項２から９のいずれか１項に記載の方法をコンピュータに実行させるコンピュータプログラム。