JP2023076341A

JP2023076341A - 画像解析システム、画像解析方法およびプログラム

Info

Publication number: JP2023076341A
Application number: JP2021189704A
Authority: JP
Inventors: 隆太郎山内; Ryutaro Yamauchi; 慎平亀岡; Shinpei Kameoka; 祥悟佐藤; Shogo Sato
Original assignee: ALBERT KK; Sony Interactive Entertainment LLC
Current assignee: ALBERT KK; Sony Interactive Entertainment LLC
Priority date: 2021-11-22
Filing date: 2021-11-22
Publication date: 2023-06-01
Anticipated expiration: 2041-11-22
Also published as: JP7216176B1; US20230162499A1

Abstract

【課題】機械学習モデルを用いて動画中のイベントに関する特徴をより容易に検出すること。【解決手段】画像解析システムは、画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデルと、オブジェクトに応じたベクトルと前記出力されたマップソースとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するマップ生成手段と、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するトークン生成手段と、を含む。【選択図】図３

Description

本発明は画像解析システム、画像解析方法およびプログラムに関する。

例えばゲームなどの動画を編集するために、その動画において重要なイベントを人の目視などの手法で見つけている。

非特許文献１には、アテンションマップを用いた教師なし学習により、音声の発生源を動画上にマッピングする技術が開示されている。非特許文献２には、視線トラッキングされた注視点情報を用いて教師なしセグメンテーションを行うことが開示されている。

"Learning to Localize Sound Source in Visual Scenes", Arda Senocak, Tae-Hyun Oh, Junsik Kim, Ming-Hsuan Yang, In So Kweon; Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018, pp. 4358-4366 "Learning Unsupervised Video Object Segmentation Through Visual Attention", Wenguan Wang, Hongmei Song, Shuyang Zhao, Jianbing Shen, Sanyuan Zhao, Steven C. H. Hoi, Haibin Ling; Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), 2019, pp. 3064-3074

例えばゲームなどの動画において、その動画を構成する画像には、複数のオブジェクトが存在する。この動画から何らかの特徴を検出する場合、特定のオブジェクトに起因する特徴（例えばイベント）を検出することが容易でなかった。

本発明は上記課題を鑑みてなされたものであって、その目的は、機械学習モデルを用いて特定のオブジェクトに着目した特徴をより容易に検出する技術を提供することである。

上記課題を解決するために、本発明にかかる画像解析システムは、画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデルと、オブジェクトに応じたベクトルと前記出力されたマップソースとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するマップ生成手段と、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するトークン生成手段と、を含む。

また、本発明にかかる画像解析方法は、画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデルから出力されるマップソースと、オブジェクトに応じたベクトルとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するステップと、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するステップと、を含む。

また、本発明にかかるプログラムは、画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデル、オブジェクトに応じたベクトルと前記出力されたマップソースとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するマップ生成手段、および、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するトークン生成手段、としてコンピュータを機能させる。

本発明によれば、機械学習モデルを用いて特定のオブジェクトに着目した特徴をより容易に検出することができる。

本発明の一形態では、画像解析システムは、前記生成されたトークンが入力され予測されたイベントを出力するイベント予測器をさらに含んでよい。

本発明の一形態では、画像解析システムは、前記機械学習モデルおよび前記イベント予測器を、画像、前記画像の内にあるオブジェクトであって前記イベントの予測の対象となるオブジェクトに応じた情報、および、前記オブジェクトのイベントを示すラベルとを含む教師データを用いて学習させる学習手段、をさらに含んでよい。

本発明の一形態では、前記トークン生成手段は、前記アテンションマップと、前記画像特徴量と、前記オブジェクトに応じたベクトルとに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成してよい。

本発明の一形態では、前記オブジェクトは、第１のオブジェクトおよび第２のオブジェクトを含み、
前記トークン生成手段は、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記第１のオブジェクトおよび前記第２のオブジェクトのそれぞれについてイベントに関する特徴を示すトークンを生成し、前記イベント予測器は、第１のオブジェクトのイベントを予測する第１のイベント予測器と第２のオブジェクトのイベントを予測する第２のイベント予測器とを含み、前記第１のイベント予測器は、前記第１のオブジェクトについて生成されるトークンと、前記第２のオブジェクトについて生成されるトークンとが並べられた第１の連結情報を入力し、前記第１のオブジェクトの予測されたイベントを出力し、前記第２のイベント予測器は、前記第１の連結情報における第１のオブジェクトのトークンおよび第２のオブジェクトのトークンが互いに交換された第２の連結情報を入力し、前記第２のオブジェクトの予測されたイベントを出力し、前記第１のイベント予測器および前記第２のイベント予測器に含まれる学習パラメータは共通であってよい。

本発明の一形態では、前記トークン生成手段は、前記オブジェクトのイベントに関連する特徴を示す複数のトークンを出力してよい。

本発明の一形態では、前記マップソースは縦横に並ぶ複数の単位領域のそれぞれについて所定の要素数の内部ベクトルを含み、アテンションマップは、前記複数の点のそれぞれにおける、前記オブジェクトに応じたベクトルと前記内部ベクトルの内積に基づいて生成されてよい。

本発明の一形態では、前記機械学習モデルは、前記生成されたトークンが入力され予測されたイベントを出力するイベント予測器とともに、画像、前記画像の内にあるオブジェクトであって前記イベントの予測の対象となるオブジェクトに応じた情報、および、前記オブジェクトのイベントを示すラベルとを含む教師データを用いて学習されてよい。

本発明の実施形態にかかる画像分析システムのハードウェア構成を示す図である。画像分析システムが実現する機能を示すブロック図である。機械学習モデルを学習させる処理の一例を示すフロー図である。動画コンテンツの一例を概略的に説明する図である。画像の一例を示す図である。機械学習モデルの構成を説明する図である。イベント予測部の処理を説明する図である。検索部５７による動画コンテンツの検索に関する処理を示すフロー図である。

以下では、本発明の実施形態について図面に基づいて説明する。出現する構成要素のうち同一機能を有するものには同じ符号を付し、その説明を省略する。

本実施形態では、ゲームのプレイ時にディスプレイに出力される画像を含む動画コンテンツを解析するシステムについて説明する。動画コンテンツは音声を含んでもよい。以下では予め録画され記憶装置などに格納される動画コンテンツを用いた場合の例について説明する。

図１は、本発明の実施形態にかかる画像分析システムのハードウェア構成の一例を示す図である。画像分析システムは、情報処理装置１を含む。情報処理装置１はパーソナルコンピュータやサーバコンピュータなどのコンピュータである。図１には情報処理装置１のみが図示されているが、情報処理装置１として複数のコンピュータが配置されてもよい。

情報処理装置１は、プロセッサ１１、ストレージ１２、通信インタフェース１３、入出力インタフェース１４、表示コントローラ１５を含む。

プロセッサ１１は、ストレージ１２に格納されているプログラムの実行命令に従って動作する。またプロセッサ１１は通信インタフェース１３、入出力インタフェース１４、表示コントローラ１５を制御する。プロセッサ１１の数は、１つであってもよいし、複数であってもよい。なお、上記プログラムの実行命令は、インターネット等を介して提供されるものであってもよいし、フラッシュメモリまたは光メディア（例えばＤＶＤ－ＲＯＭ）のようなコンピュータで読み取り可能な記憶媒体に格納されて提供されるものであってもよい。

ストレージ１２は、ＤＲＡＭやフラッシュメモリのようなメモリ素子、およびハードディスクドライブのような外部記憶装置によって構成されている。ストレージ１２は、上記プログラムの実行命令を格納する。また、ストレージ１２は、プロセッサ１１や通信インタフェース１３等から入力される情報や演算結果を格納する。

通信インタフェース１３は他の装置と通信するネットワークインタフェースコントローラであり、有線ＬＡＮ、無線ＬＡＮまたは近距離無線通信を構成する集積回路と、通信端子またはアンテナとを含む。通信インタフェース１３は、ネットワークを介して他の装置と通信する機能を有する。通信インタフェース１３は、プロセッサ１１の制御に基づいて、他の装置から受信した情報をプロセッサ１１やストレージ１２に入力し、他の装置に情報を送信する。

入出力インタフェース１４は、入力デバイスからデータを取得し、出力デバイスに対してデータを出力する入出力コントローラ（例えばＵＳＢ－ＩＦ）により構成される。入力デバイスは、例えば、キーボード、マウス、タッチパネル、タッチパッド、マイク、カメラのうち少なくとも一部を含む。出力デバイスは、例えばスピーカを含む。入出力インタフェース１４は、プロセッサ１１の制御に基づいて、例えば入力デバイスからユーザの操作に基づく入力データを取得し、その入力データをプロセッサ１１やストレージ１２に入力する。

表示コントローラ１５は、表示出力デバイスをコントロールするグラフィックスコントローラである。表示コントローラ１５は、ＧＰＵ（Graphic Processing Unit）を含んでよい。表示コントローラ１５は、表示出力デバイスに表示データを出力する。表示出力デバイスは情報処理装置１の内部または外部にあるディスプレイ装置である。

以下では画像解析システムが実現する機能および処理を説明する。図２は、音画像分析システムが実現する機能を示すブロック図である。画像解析システムは機能的に、情報抽出部５１、正解生成部５２、アイコン抽出部５３、全体学習モデル５４、学習制御部５５、検索部５７を含む。これらの機能は、主に、プロセッサ１１がストレージ１２に記憶される各部に対応するプログラムの命令を実行し、通信インタフェース１３や表示コントローラ１５を制御することにより実現される。全体学習モデル５４は機械学習モデルの一種であり、画像特徴生成部６１と、イベント予測部６６とを含む。画像特徴生成部６１はエンコーダ６２、マップ生成部６３、トークン生成部６４を含み、イベント予測部６６は、第１予測器６７と第２予測器６８とを含む。

情報抽出部５１は、動画コンテンツから、その動画コンテンツを構成する複数の画像のそれぞれの一部である対象領域７０（図５参照）と、その対象領域７０と異なる情報である付属情報と、対象領域７０の内にあるオブジェクトの種類を示すアイコン領域とを抽出する。本実施形態では、対象領域７０にあるオブジェクトの数は２であり、抽出されるアイコン領域の数も２である。ここで、情報抽出部５１は、動画コンテンツに含まれる複数の画像のそれぞれから、対象領域を抽出する。複数の画像の数（フレームの数）は、例えば動画コンテンツの期間と毎秒フレーム数とから求められる。なお、情報抽出部５１はアイコン領域を抽出せずに、例えば文字列のような、オブジェクトの種類を示す他の情報を抽出してもよい。付属情報は、動画コンテンツを構成する複数の画像のそれぞれの一部の領域かつ入力領域と異なる領域に基づいて抽出されてよい。また付属情報は、動画コンテンツに含まれる音声を示す情報であってもよい。

正解生成部５２は、抽出された付属情報から正解データを生成する。正解データは、その付属情報が示すイベントの有無、または、イベントの種類を示す情報であってよい。

アイコン抽出部５３は、アイコン領域から、オブジェクトの種類を示す特徴量を生成する。より具体的には、アイコン抽出部５３は、アイコン領域から入力領域にある２つのオブジェクトの特徴をそれぞれ示す第１特徴ベクトル、第２特徴ベクトルを特徴量として生成する。アイコン抽出部５３は、予め学習された小規模な機械学習モデルを含んでいる。この小規模な機械学習モデルは、畳み込みニューラルネットワークを含み、２つのアイコン領域の画像が入力され、それぞれ第１特徴ベクトル、第２特徴ベクトルを出力する。アイコン抽出部５３の機械学習モデルは、異なるオブジェクトに対して出力されるベクトル間の距離が長くなるように、距離学習的な手法により学習されてよい。またアイコン抽出部５３の機械学習モデルは、アイコン領域からオブジェクトを分類する分類器を含んでもよい。この場合はあらかじめオブジェクトごとにランダムかつ互いに距離の十分大きいベクトルを割り当て、分類器の出力により決定されるオブジェクトに割り当てられたベクトルが第１特徴ベクトルまたは第２特徴ベクトルとして出力されてよい。

学習制御部５５は、対象領域７０と正解データとを含む教師データを用いて全体学習モデル５４を学習させる。その学習において、全体学習モデル５４は、動画コンテンツに含まれる学習単位期間（例えば１～２ｓ）の画像を含むクリップから、イベントの発生を示す情報を出力する。全体学習モデル５４には、１つのクリップに含まれる複数の画像から抽出される対象領域７０が入力され、それに対して、全体学習モデル５４のイベント予測部６６はイベント予測結果としてイベントの発生を示す情報を出力する。ここで、クリップは複数のフレーム群に分割され、そのフレーム群が全体学習モデル５４により処理される。１つのフレーム群は、クリップに含まれる画像のうち連続するｋ個（ｋは所定の範囲の整数であり詳細は後述する）のフレームの画像からなる。

全体学習モデル５４に含まれる画像特徴生成部６１は、クリップから生成される複数のフレーム群のそれぞれについて、第１のオブジェクトおよび第２のオブジェクトの特徴を示す第１トークンおよび第２トークンを出力する。より具体的には、複数のフレーム群のそれぞれについて、画像特徴生成部６１には、そのフレーム群に含まれる複数の画像のそれぞれから抽出された対象領域７０の画像が入力され、画像特徴生成部６１は、対象領域７０におけるそれぞれ第１のオブジェクトおよび第２のオブジェクトの特徴を示す第１トークンおよび第２トークンを出力する。画像特徴生成部６１に含まれるエンコーダ６２、マップ生成部６３、トークン生成部６４の詳細については後述する。

あるクリップについて、全体学習モデル５４に含まれるイベント予測部６６は、複数のフレーム群のそれぞれについて出力された第１トークンおよび第２トークンに基づいて、第１のオブジェクトに生じるイベントの有無または種類を示す第１イベント情報と、第２のオブジェクトに生じるイベントの有無または種類を示す第２イベント情報と、を出力する。イベント予測部６６に含まれる第１予測器６７と第２予測器６８との詳細については後述する。

検索部５７は、学習済の全体学習モデル５４に含まれる画像特徴生成部６１を用いて、検索対象となる動画コンテンツから、クエリとして入力されるクエリ動画に類似する動画コンテンツを検索する。クエリ動画は、動画コンテンツから検出したい状況を過不足なく含む動画であり、クエリとなる動画コンテンツの一部であってよい。また、検索部５７は、インデックス作成処理と、作成されたインデックスを用いてクエリ動画に類似する動画を検索する検索処理とを行う。

インデックス作成処理においては、検索部５７は、検索対象となる動画コンテンツから複数のフレーム群を生成し、複数のフレーム群のそれぞれについて、そのフレーム群に含まれる画像のそれぞれの対象領域７０を学習済の画像特徴生成部６１に入力することで得られるトークンを、その動画コンテンツにおけるそのフレーム群の時間的位置を示す情報と関連づけてストレージ１２に記憶させる。

検索処理においては、検索部５７は、クエリとして入力されるクエリ動画から複数のフレーム群を生成する。次に検索部５７は、複数のフレーム群のそれぞれについて、学習済の画像特徴生成部６１にそのフレーム群に含まれる複数の画像のそれぞれから抽出された対象領域７０の画像を入力し、画像特徴生成部６１からトークン（テンプレートトークン）を取得する。この処理により得られる複数の時系列のテンプレートトークンと、検索対象となる動画コンテンツについてストレージ１２に格納されるトークンとの類似度に基づいて、検索部５７はそのクエリ動画に類似するフレーム群を決定し、そのフレーム群に応じた動画コンテンツの区間の位置を示す情報を取得する。検索部５７は、その類似する動画コンテンツおよびその類似する区間の位置を示す情報を検索結果として出力する。検索部５７は、その動画コンテンツの類似する区間およびその前後を再生してもよい。

全体学習モデル５４の学習について説明する。図３は、全体学習モデル５４を学習させる処理の一例を示すフロー図である。図３のフローに示される処理は、動画コンテンツから取り出された複数のクリップのそれぞれについて実行される。動画コンテンツに含まれる複数のクリップの期間（学習単位期間）は一定であり、複数のクリップの間で開始タイミングは異なっている。隣り合うクリップにおいて一部のフレームが重複していてもよいし、重複しなくてもよい。

はじめに、情報抽出部５１は、学習制御部５５により入力される動画コンテンツであって、学習用の動画コンテンツを取得する（ステップＳ１０１）。動画コンテンツは、時系列の複数の画像と、時系列の音声データとを含む。より具体的には、情報抽出部５１は動画コンテンツからクリップを取得し、さらに、そのクリップのタイミングに応じた期間の音声データまたは画像を取得する。

図４は、動画コンテンツの一例を概略的に説明する図である。図中の横方向に並ぶ矩形の領域のそれぞれは、時系列に並ぶ画像（ここではクリップに相当）を示している。動画コンテンツは、例えば、図４に説明されるように、対戦型格闘ゲームのプレイ動画であり、ゲームのプレイ中における画像と音声とを含んでよい。図４では、説明上の都合により、隣り合う画像（クリップ）における時間間隔が長くなっているが、実際は、クリップの期間は１～２ｓでよく、各クリップが３０～１２０フレームの画像を含んでよい。

情報抽出部５１は、動画コンテンツのクリップに含まれる複数の画像（クリップに含まれる複数のフレームの画像）のそれぞれから、対象領域７０およびアイコン領域を抽出する（ステップＳ１０２）。対象領域７０は、画像解析の対象となる領域であり、アイコン領域は、対象領域７０の内にあるオブジェクトの種類を示す領域である。これらの領域の位置は固定されていてよい。

図５は、画像の一例を示す図である。図５に示される画像は、動画コンテンツに含まれる、あるタイミングのフレームにおける画像である。アイコン領域は画像中の第１アイコン領域７１および第２アイコン領域７２からなり、第１アイコン領域７１および第２アイコン領域７２はそれぞれ対象領域７０に描画される第１オブジェクト８１および第２オブジェクト８２に対応する。なお、対象領域７０内において、ゲームのプレイ状況により、第１オブジェクト８１は必ずしも左側に居るとは限らず、第２オブジェクト８２が必ずしも右側にいるとは限らない。

また画像に含まれる第１付属領域７５および第２付属領域７６は、それぞれ第１オブジェクト８１および第２オブジェクト８２に対応する。対象領域７０、第１アイコン領域７１、第２アイコン領域７２、第１付属領域７５、第２付属領域７６は互いに異なる領域である。第１付属領域７５、第２付属領域７６は対象領域７０とは重複しない。図５の例では、第１付属領域７５、第２付属領域７６は、それぞれ第１オブジェクト８１、第２オブジェクト８２の残り体力を示すＨＰゲージの画像であり、相手から攻撃を受けるとＨＰゲージに示される残り体力が減少する。第１付属領域７５、第２付属領域７６の位置も固定されていてよい。図５における対象領域７０は、第１アイコン領域７１、第２アイコン領域７２、第１付属領域７５、第２付属領域７６を含まないが、対象領域７０は第１アイコン領域７１および第２アイコン領域７２を含んでもよいし、さらに第１付属領域７５、第２付属領域７６を含んでもよいし、画像の全体が対象領域７０であってもよい。

情報抽出部５１は、クリップに含まれる複数の画像から抽出された対象領域７０の画像から、画像特徴生成部６１に入力する複数のフレーム群の対象画像７０を取得する（ステップＳ１０３）。フレーム群のそれぞれは、クリップ中に含まれる連続するｋ枚のフレームからなる。ｋはあらかじめ定められた整数であり、例えば１以上、かつ、クリップに含まれるフレーム数より小さい数であってよい。ｋが２以上の場合、情報抽出部５１は、クリップに含まれる複数のフレームのうち、スライディングウインドウによって得られるｋフレームの画像（フレーム群に含まれるフレームの画像）のそれぞれから抽出された対象領域７０の画像を取得してよい。

情報抽出部５１は、対象領域７０およびアイコン領域（第１アイコン領域７１および第２アイコン領域７２）のほかに、動画コンテンツから付属情報を抽出する（ステップＳ１０４）。ここでは、付属情報は、画像中の第１付属領域７５、第２付属領域７６であってもよいし、対象領域７０が抽出された画像を含むクリップのタイミングに応じた期間の音声を示す音声データであってもよい。情報抽出部５１は、対象領域７０が抽出された画像を含むクリップより数フレーム先（所定時間が経過したタイミング）の画像から、第１付属領域７５、第２付属領域７６を抽出してよい。

正解生成部５２は、抽出された付属情報から、正解データとしてイベントを検出する（ステップＳ１０５）。正解生成部５２の処理は、ルールベースで行われてよい。例えば、正解生成部５２は、クリップ内の終端のフレームより所定時間（例えば１～５フレーム）が経過したタイミングにおいて付属情報として抽出された、第１付属領域７５、第２付属領域７６のそれぞれにおける、所定数だけ前のフレームから色が変化した領域の大きさから残り体力のようなパラメータの数値の変化を取得し、その取得された数値の変化に基づいてオブジェクトごとに正解データとしてのイベントを検出してよい。正解生成部５２は、第１付属領域７５、第２付属領域７６のそれぞれが示す数値を取得し、その取得された数値の前のフレームからの変化に基づいてイベントを検出してもよい。また正解生成部５２は、例えば、第１付属領域７５、第２付属領域７６のそれぞれの画像そのものの変化に基づいてイベントを検出してもよい。正解生成部５２が検出する正解データとしてのイベントは、オブジェクトごとのダメージ変化を示すものであってよいし、他の変化であってもよい。

また正解生成部５２は、クリップに応じた期間（例えばクリップ内の終端のフレームより１から５フレーム後を始めとする所定の期間）の音声データをメルスペクトログラムに変換し、そのメルスペクトログラムを正解データとして取得してもよい。なお、ステップＳ１０４，Ｓ１０５の処理は、ステップＳ１０２，Ｓ１０３の処理と並行して行われてもよいし、ステップＳ１０２の処理の前に行われてもよい。

アイコン抽出部５３は、アイコン領域からオブジェクトの種類を示す特徴量を抽出する（ステップＳ１０６）。アイコン抽出部５３は、第１アイコン領域７１から第１オブジェクト８１の種類を示す第１特徴ベクトルを抽出し、第２アイコン領域７２から第２オブジェクト８２の種類を示す第２特徴ベクトルを抽出する。なお、アイコン抽出部５３は動画コンテンツまたはクリップごとに１回だけアイコン領域を抽出してもよい。

対象領域７０や第１，第２特徴ベクトルが抽出され、正解データが検出（生成）されると、学習制御部５５は、複数のフレーム群に含まれる１または複数の画像から取得された対象領域７０の画像および抽出された第１特徴ベクトル，第２特徴ベクトルをクリップごとに全体学習モデル５４に入力し、全体学習モデル５４の出力と、正解データとに基づいて、全体学習モデル５４を学習させる（ステップＳ１０７）。

ここで、全体学習モデル５４についてさらに詳細に説明する。図６は、全体学習モデル５４の構成を説明する図である。これまでに説明したように、全体学習モデル５４は、画像特徴生成部６１と、イベント予測部６６とを含む。画像特徴生成部６１およびイベント予測部６６は機械学習モデルの一種であり、それらは前述の学習制御部５５による学習の対象である。

画像特徴生成部６１には、クリップから取得されたフレーム群のそれぞれについて、フレーム群に含まれる複数の画像の対象領域７０と、オブジェクトに応じたベクトルとが入力される。画像特徴生成部６１は、クリップから取得された複数のフレーム群のそれぞれについて、入力されたベクトルに対応し、対象領域７０から認識されたオブジェクトのイベントに関する特徴を示すトークンを出力する。

オブジェクトに応じたベクトルは、アイコン抽出部５３により抽出された第１特徴ベクトルおよび第２特徴ベクトルである。オブジェクトに応じたベクトルは、単にオブジェクトの種類に応じてあらかじめ定められたベクトルであってもよい。この場合、例えば画像内に表示されるオブジェクトの名前に応じて選択されたベクトルが画像特徴生成部６１に入力されてよい。

画像特徴生成部６１は、エンコーダ６２と、マップ生成部６３と、トークン生成部６４とを含む。エンコーダ６２には、フレーム群に含まれる複数の画像の対象領域７０が入力され、エンコーダ６２は画像特徴量配列およびマップソースを出力する。エンコーダ６２は、ニューラルネットワークを含む機械学習モデルの一種であり、例えば、ＲｅｓＮｅｔ（２＋１）Ｄと呼ばれる畳み込みニューラルネットワークであってよい。

マップソースは、アテンションマップの生成に用いられる行列であり、その行列の大きさは、Ｄｋ×Ｈ×Ｗである。Ｄｋは第１特徴ベクトルおよび第２特徴ベクトルの要素数であり、Ｈ，Ｗは、アテンションマップの縦横サイズである。マップソースは、縦横に並ぶ（Ｈ×Ｗ）個の単位領域のそれぞれに配置されるＤｋ次元の内部ベクトルを含むものと考えることができる。Ｄｋ，Ｈ，Ｗは例えばそれぞれ６４、６、１０であり、画像のサイズは例えば１８０×３２０である。

画像特徴量配列は、アテンションマップとともにトークンの生成に用いられる行列であり、その大きさはＤｔ×Ｈ×Ｗである。Ｄｔは、トークンのベクトルの要素数であり、チャネルの数でもある。Ｄｔは例えば２５６である。アテンションマップは、画像における当該オブジェクトに関する領域を示すマップであり、アテンションマップの数はオブジェクトの数と同じである。図６の例では、第１のマップおよび第２のマップの２つのアテンションマップが生成される。

マップソースが出力されると、マップ生成部６３は、画像特徴生成部６１に入力されたオブジェクトの特徴を示すベクトルと、マップソースとに基づいて、アテンションマップを生成する。より具体的には、マップ生成部６３は、アテンションマップを構成する単位領域（Ｈ×Ｗ個）のそれぞれについて、マップソースの内部ベクトルと第１特徴ベクトルとの内積（類似度）を求め、求められた内積をＳｏｆｔｍａｘ関数に入力して得られた値（重み）を取得することにより、第１のアテンションマップを生成する。マップ生成部６３は、アテンションマップを構成する単位領域のそれぞれについて、マップソースの内部ベクトルと第２特徴ベクトルとの内積を求め、求められた内積をＳｏｆｔｍａｘ関数に入力して得られた値（重み）を取得することにより、第２のアテンションマップを生成する。

アテンションマップが生成されると、トークン生成部６４は、生成されたアテンションマップと画像特徴量配列とに基づいて、トークンを生成する。トークンはオブジェクトのイベントに関する特徴を示し、その数はオブジェクトの数と同じである。この処理においては、アテンションマップを用いて画像特徴量配列の空間的に注目すべき領域を限定するものである。トークン生成部６４は、さらに画像特徴量配列が含む複数のチャネルのうち、注目すべきチャンネルを限定する。図６の例では、第１のオブジェクトの特徴を示す第１トークンと、第２のオブジェクトの特徴を示す第２トークンとからなる２つのトークンが生成される。第１トークンおよび第２トークンは１次元のベクトルであり、その要素数はＤｔである。

トークン生成部６４は、より具体的には、画像特徴量配列のＤｔ個のチャネルのそれぞれについて、そのチャネルのＨ×Ｗの要素のそれぞれの値に、アテンションマップの対応する位置の重みをかけた値の空間方向（Ｈ×Ｗ）の総和を、Ｄｔ次元の中間ベクトルの要素の値として算出する。そしてトークン生成部６４は中間ベクトルと、チャネル重みベクトルとの要素積を、Ｄｔ次元のトークンのベクトルの値として算出する。第１トークンの生成における要素の算出では、アテンションマップのうち第１のマップが用いられ、第２トークンの生成における要素の算出では、アテンションマップのうち第２のマップが用いられる。

チャネル重みベクトルは、第１トークンの生成の際に用いられる第１チャネル重みベクトルと、第２トークンの生成の際に用いられる第２チャネル重みベクトルとを含む。第１チャネル重みベクトル、第２チャネル重みベクトルはともにＤｔ次元のベクトルであり、それぞれ、オブジェクトの特徴を示す第１特徴ベクトルおよび第２特徴ベクトルに基づいて生成される。各要素があらかじめ定められた値（例えばランダム値）を有するＤｔ×Ｄｋのパラメータ行列との内積（線形写像）によりＤｔ次元のチャネル重みベクトルが生成されてもよい。またＤｔとＤｋとが同じ値である場合には、第１特徴ベクトルおよび第２特徴ベクトルがそのまま第１チャネル重みベクトルおよび第２チャネル重みベクトルになってもよい。

ここで、トークン生成部６４は、アテンションマップの各領域の位置に応じた値を有する配列と、トークンの生成に用いたアテンションマップとに基づいて、ＰＥベクトルを生成する。ＰＥベクトルは、トークンとともにイベント予測部６６（第１予測器６７，第２予測器６８）に入力される。トークンとＰＥベクトルとのセットが入力される第１予測器６７，第２予測器６８はＬＳＴＭ（Long Short Term Memory）モデルを有する。なお、第１予測器６７，第２予測器６８はＴｒａｎｓｆｏｒｍｅｒモデルを有してもよい。

ＰＥベクトルは、以下に示すＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇの処理により生成される。はじめに、トークン生成部６４は、アテンションマップと同じ縦横サイズを有し、左上側の要素に［－１，－１］、右下側の要素に［１，１］を有するグリッドの配列（大きさ２×Ｈ×Ｗ）を生成する。グリッドの要素は２次元ベクトルである。次にトークン生成部６４は、グリッドの各要素［ｕ，ｖ］に対して、以下のベクトルを算出する。

ここで、Ｌはハイパーパラメータであり、例えばＬ＝１０としている。すると、この例では、算出されるベクトルの次元Ｆは４×１０＝４０である。トークン生成部６４は、算出されたベクトルをグリッド状に並べたＦ×Ｈ×Ｗの配列を生成する。トークン生成部６４は、配列のうち算出されたベクトルの各要素に対応するＨ×Ｗの要素のそれぞれの値に、アテンションマップの対応する位置の重みをかけた値の空間方向（Ｈ×Ｗ）の総和をとることで、４×Ｌ次元のベクトルを得る。これがＰＥベクトルである。

本実施形態では、画像特徴生成部６１がアテンションマップを用いてトークンを生成している。一方、教師データには、アテンションマップを生成するためのオブジェクトの明示的な位置情報は存在しない。マップ生成部６３が、オブジェクトに応じてマップソースからアテンションマップを生成する構成を含み、その構成を含む全体学習モデル５４の学習によってイベント発生予測に重要な部位にアテンションマップが注目するようになるからである。この構成により、複数のオブジェクトが存在するような場合であっても、そのオブジェクトの位置を明示的に指定せずにアテンションマップを利用することが可能になる。オブジェクトごとのアテンションマップを用いることで、例えばオブジェクトの位置が左右反転しうるような状況であっても、複数のオブジェクトが存在する動画から特定のオブジェクトに着目した特徴をより容易に検出することができる。

動画コンテンツのクリップから取得された複数のフレーム群のそれぞれについてトークンが生成されると、イベント予測部６６は、それらのトークンに基づいて、オブジェクトのそれぞれについて生じるイベントの有無または種類を示すイベント情報を出力する。イベント情報は、第１のオブジェクトに生じるイベントの有無または種類を示す第１イベント情報と、第２のオブジェクトに生じるイベントの有無または種類を示す第２イベント情報と、を含む。第１予測器６７は第１イベント情報を出力し、第２予測器６８は第２イベント情報を出力する。なお、第１トークンおよび第２トークンに基づいて、第１イベント情報が生成される。第２イベント情報も第１トークンおよび第２トークンに基づいて生成される。

図７は、イベント予測部６６の処理を説明する図である。イベント予測部６６は、複数のフレーム群のそれぞれについて画像特徴生成部６１から出力された第１トークンおよび第２トークンから、第１予測器６７に入力する第１連結情報と、第２予測器６８に入力する第２連結情報とを生成する。第１連結情報は、第１トークンの要素と第２トークンの要素とが並ぶベクトルであってよく、第２連結情報は、第１連結情報における第１トークンの要素と第２トークンの要素とが交換された情報であってよい。例えば、第１連結情報は、順に並ぶ第１トークンの要素の後ろに、順に並ぶ第２トークンの要素が付加されたものであってよく、第２連結情報は、順に並ぶ第２トークンの要素の後ろに、順に並ぶ第１トークンの要素が付加されたものであってよい。さらにいえば、上記の並べられる第１トークンの要素の直後に、その第１トークンとともに生成されたＰＥベクトルの要素が配置され、その並べられる第２トークンの要素の直後にその第１トークンとともに生成されたＰＥベクトルの要素が配置されてよい。

なお、１つのクリップについて時系列の複数の第１連結情報および複数の第２連結情報が生成され、複数の第１連結情報が一度に第１予測器６７に入力され、複数の第２連結情報が一度に第２予測器６８に入力されてよい。

第１予測器６７および第２予測器６８のそれぞれは機械学習モデルの一種であり、いわゆるＴｒａｎｓｆｏｒｍｅｒモデルまたはＲＮＮを含んでよい。第１予測器６７は時系列の複数の第１連結情報に基づいて発生するイベントを示す第１イベント情報をラベルとして出力し、第２予測器６８は時系列の複数の第２連結情報に基づいて発生するイベントを示す第２イベント情報をラベルとして出力する。第１イベント情報、第２イベント情報は、それぞれ第１オブジェクト、第２オブジェクトにイベントが生じる可能性を示す予測スコアであって良い。時系列の第１連結情報、第２連結情報により、第１予測器６７および第２予測器６８が状況の時間変化に基づいてイベントを予測できる。

ここで、第１予測器６７および第２予測器６８は同じ内部構成を有し、学習パラメータが共通である。第１連結情報と第２連結情報とのデータの特徴から、内部構成および学習パラメータが同じであっても正常に学習させることができる。同一の予測器が、情報の連結順序に応じて予測対象となるオブジェクトを切り替える（例えば、常に連結された前側の情報に対応するオブジェクトのイベントを予測する）構成にすることで、第１、第２オブジェクトに関する情報の形式が同じになるよう学習される。これにより、学習によって、トークン内にオブジェクト固有の情報を持たなくなり、アテンションマップがオブジェクトの識別を担い、トークンが（オブジェクトに依存しない）イベントに関する情報を保持する、という役割分担をすることが期待される。

学習制御部５５は、イベント予測部６６の出力と、正解生成部５２により生成された正解データとに基づいて、全体学習モデル５４に含まれる機械学習モデル（エンコーダ６２、第１予測器６７、第２予測器６８）の学習パラメータを調整する。学習パラメータは例えばニューラルネットワークにおける重みであり、その調整においては、いわゆるバックプロパゲーションが用いられてよい。

本実施形態では、機械学習モデルの学習のための正解データは人出で作成されるものではなく、同じ動画コンテンツに含まれる情報から主にルールベースで生成される。これにより、学習データの作成が容易になり、機械学習モデルを用いて動画中のイベントに関する特徴をより容易に検出することができる。またゲームのプレイ動画のような動画コンテンツにおいて、画像中の特定の領域や音声の変化はイベントと関連する蓋然性が高い。これらの情報から正解データを生成することで、正解データの一定の質を確保することもできる。

イベント予測部６６は、これまでに説明したものでなくてもよく、例えば入力されたトークンに基づいて音声のメルスペクトログラムを予測する機械学習モデルであってもよい。この場合には、全体学習モデル５４は、クリップから取得されるフレーム群およびオブジェクトの特徴を示すベクトルと、正解生成部５２が正解データとして取得したメルスペクトログラムとを含む学習データに基づいて学習されてよい。

またオブジェクトの種類が少ない場合には、オブジェクトの特徴を示す特徴量が用いられなくてもよい。より具体的には、情報抽出部５１は、アイコン領域の抽出や、ステップＳ１０５の処理は行われず、また画像特徴生成部６１に特徴量が入力されなくてよい。この場合、画像特徴生成部６１の構成はアテンションマップを用いる公知の構成を用いてよい。このような構成、または、全体学習モデル５４がトークンを出力せず、直接的にイベントを予測する構成であっても、本実施形態に示される学習手法により、正解データを明示的に生成することなく学習できる。

次に、学習済の機械学習モデルの利用方法について説明する。図８は、検索部５７による動画コンテンツの検索に関する処理を示すフロー図である。図８において、ステップＳ３０１からＳ３０４の処理は、インデックス作成処理であり、ステップＳ３０６からＳ３１０の処理は、検索処理である。インデックス作成処理は、検索対象となる動画コンテンツから、その動画コンテンツに含まれるフレーム群についてのトークンを抽出し、動画コンテンツ中のフレーム群を示す情報（例えば動画コンテンツ中のそのフレーム群に対応する区間を示す情報）とトークンとを関連付けてストレージ１２に格納する処理である。検索処理は、ストレージ１２に格納されたトークンと、学習済の画像特徴生成部６１とを用いて、クエリ動画についてテンプレートトークンを取得し、その取得されたテンプレートトークンとストレージ中のトークンとの類似度に基づいて、類似する動画コンテンツとその動画コンテンツ中の区間を検出する処理である。

はじめに、情報抽出部５１は、検索対象となる動画コンテンツから複数のフレーム群を生成し、フレーム群に含まれる１または複数の画像の対象領域７０およびアイコン領域を抽出する（ステップＳ３０１）。フレーム群は、これまでに説明されたものと同様である。次に、アイコン抽出部５３は、アイコン領域からオブジェクトの種類を示す特徴量を抽出する（ステップＳ３０２）。ステップＳ３０１，Ｓ３０２の処理の詳細は、図３のステップＳ１０２，Ｓ１０３，Ｓ１０６の処理と同様である。なお、付属情報の抽出および付属情報に基づく正解データの生成は行われない。

そして、学習済の画像特徴生成部６１には、複数のフレーム群に含まれる画像の対象領域７０および特徴量が入力され、画像特徴生成部６１は、その入力された複数の対象領域７０および特徴量に対してトークンを出力する（ステップＳ３０３）。検索部５７は、フレーム群のそれぞれについて出力されたトークンを、動画コンテンツ中の抽出の対象となった画像を含むフレーム群を示す情報（例えばフレーム群の先頭の時間的位置）と関連付けてストレージ１２に格納する（ステップＳ３０４）。ステップＳ３０１からＳ３０４の処理は、動画コンテンツに含まれるフレーム群のそれぞれに対して行われてよく、さらに、複数の動画コンテンツのそれぞれについて行われてよい。

動画コンテンツに含まれるフレーム群について出力されたトークンがストレージ１２に格納されたのちに、検索部５７はクエリ動画から複数のフレーム群を取得する（ステップＳ３０６）。そして情報抽出部５１は、クエリとなるフレーム群に含まれる画像のそれぞれから対象領域７０およびアイコン領域を抽出する（ステップＳ３０７）。またアイコン抽出部５３は、アイコン領域からオブジェクトの種類を示す特徴量を抽出する（ステップＳ３０８）。対象領域７０およびアイコン領域の抽出の手法は図３のステップＳ１０２，Ｓ１０３と同じであり、特徴量を抽出する手法はステップＳ１０５と同じである。

そして、フレーム群ごとに、学習済の画像特徴生成部６１には、クエリとなるフレーム群に含まれる画像の対象領域７０および特徴量が入力され、画像特徴生成部６１は、その入力されたフレーム群についてトークン（テンプレートトークン）を出力する（ステップＳ３０９）。

検索部５７は、ストレージ１２に格納されたトークンと、出力されたテンプレートトークンとの類似度に基づいて、クエリ動画に類似する、検索対象となる動画コンテンツを取得する（ステップＳ３１０）。より具体的には、検索部５７は、クエリ動画からの複数のテンプレートトークンと、検索対象となる動画コンテンツ中のフレーム群に関連付けて記憶された複数のトークンとの類似度を算出し、その類似度に基づくスコアを算出する。そして、検索部５７はそのスコアが閾値より大きいフレーム群（類似するフレーム群）を示す情報に基づいて、そのフレーム群を含む動画コンテンツおよびその動画コンテンツ中の位置を取得する。

また検索部５７は、取得された動画コンテンツの区間を示す情報を出力する。出力される情報は、単位動画の時間的位置を示す情報であってもよいし、動画コンテンツのその単位動画の前後を含む動画データの出力であってもよい。

本実施形態では、動画コンテンツから生成される正解データとしてのイベントを用いて全体学習モデル５４を学習させているが、学習済の機械学習モデルのうち一部だけを学習後の検索に用いている。言い換えると、学習済の全体学習モデル５４の一部である画像特徴生成部６１から出力されるトークンを用いて類似する動画コンテンツ中のタイミングを検出している。これは、これまでに説明した学習手法により、トークンが動画コンテンツにおけるイベントに関する情報を含むことにより可能になっている。このような手法により、動画コンテンツの各場面における状況を自動的に識別することも可能となる。

１情報処理装置、１１プロセッサ、１２ストレージ、１３通信インタフェース、１４入出力インタフェース、１５表示コントローラ、５１情報抽出部、５２正解生成部、５３アイコン抽出部、５４全体学習モデル、５５学習制御部、５７検索部、６１画像特徴生成部、６２エンコーダ、６３マップ生成部、６４トークン生成部、６６イベント予測部、６７第１予測器、６８第２予測器、７０対象領域、７１第１アイコン領域、７２第２アイコン領域、７５第１付属領域、７６第２付属領域、８１第１オブジェクト、８２第２オブジェクト。

Claims

画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデルと、
オブジェクトに応じたベクトルと前記出力されたマップソースとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するマップ生成手段と、
前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するトークン生成手段と、
を含む画像解析システム。
請求項１に記載の画像解析システムにおいて、
前記生成されたトークンが入力され予測されたイベントを出力するイベント予測器、
をさらに含む画像解析システム。
請求項２に記載の画像解析システムにおいて、
前記機械学習モデルおよび前記イベント予測器を、画像、前記画像の内にあるオブジェクトであって前記イベントの予測の対象となるオブジェクトに応じた情報、および、前記オブジェクトのイベントを示すラベルとを含む教師データを用いて学習させる学習手段、
をさらに含む画像解析システム。
請求項３に記載の画像解析システムにおいて、
前記トークン生成手段は、前記アテンションマップと、前記画像特徴量と、前記オブジェクトに応じたベクトルとに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成する、
画像解析システム。
請求項３または４に記載の画像解析システムにおいて、
前記オブジェクトは、第１のオブジェクトおよび第２のオブジェクトを含み、
前記トークン生成手段は、前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記第１のオブジェクトおよび前記第２のオブジェクトのそれぞれについてイベントに関する特徴を示すトークンを生成し、
前記イベント予測器は、第１のオブジェクトのイベントを予測する第１のイベント予測器と第２のオブジェクトのイベントを予測する第２のイベント予測器とを含み、
前記第１のイベント予測器は、前記第１のオブジェクトについて生成されるトークンと、前記第２のオブジェクトについて生成されるトークンとが並べられた第１の連結情報を入力し、前記第１のオブジェクトの予測されたイベントを出力し、
前記第２のイベント予測器は、前記第１の連結情報における第１のオブジェクトのトークンおよび第２のオブジェクトのトークンが互いに交換された第２の連結情報を入力し、前記第２のオブジェクトの予測されたイベントを出力し、
前記第１のイベント予測器および前記第２のイベント予測器に含まれる学習パラメータは共通である、
画像解析システム。
請求項１から５のいずれか１項に記載の画像解析システムにおいて、
前記トークン生成手段は、前記オブジェクトのイベントに関連する特徴を示す複数のトークンを出力する、
画像解析システム。
請求項１から６のいずれか１項に記載の画像解析システムにおいて、
前記マップソースは縦横に並ぶ複数の単位領域のそれぞれについて所定の要素数の内部ベクトルを含み、アテンションマップは、前記複数の点のそれぞれにおける、前記オブジェクトに応じたベクトルと前記内部ベクトルの内積に基づいて生成される、
画像解析システム。
請求項１に記載の画像解析システムにおいて、
前記機械学習モデルは、前記生成されたトークンが入力され予測されたイベントを出力するイベント予測器とともに、画像、前記画像の内にあるオブジェクトであって前記イベントの予測の対象となるオブジェクトに応じた情報、および、前記オブジェクトのイベントを示すラベルとを含む教師データを用いて学習される、
画像解析システム。
画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデルから出力されるマップソースと、オブジェクトに応じたベクトルとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するステップと、
前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するステップと、
を含む画像解析方法。
画像が入力され画像特徴量とマップソースとを出力する画像解析のための機械学習モデル、
オブジェクトに応じたベクトルと前記出力されたマップソースとに基づいて、前記画像における当該オブジェクトに関する領域を示すアテンションマップを生成するマップ生成手段、および、
前記生成されたアテンションマップと前記画像特徴量とに基づいて、前記オブジェクトのイベントに関する特徴を示すトークンを生成するトークン生成手段、
としてコンピュータを機能させるためのプログラム。