JP2021081921A

JP2021081921A - データ処理装置、データ処理方法、プログラム、およびモデル

Info

Publication number: JP2021081921A
Application number: JP2019208036A
Authority: JP
Inventors: 優太上川; Yuta KAMIKAWA
Original assignee: Preferred Networks Inc
Current assignee: Preferred Networks Inc
Priority date: 2019-11-18
Filing date: 2019-11-18
Publication date: 2021-05-27

Abstract

【課題】相互作用を有する対象の関係性を示す指標を算出する装置などを提供する。【解決手段】本発明の一実施形態であるデータ処理装置は算出部を備える。前記算出部は、ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセットに基づき、少なくとも二つの対象の関係性を示す指標を算出する。【選択図】図１

Description

本開示は、データ処理装置、データ処理方法、プログラム、およびモデルに関する。

情報処理技術の発達に伴い、複数の対象の位置および動きを高精度に捉えることが可能となっている。例えば、航法衛星による測位、または複数のカメラからの画像を解析する手法により、スポーツの試合中の選手の位置、移動軌跡、走行距離などが算出されている。これらの情報が、スポーツの戦術の研究、対戦相手の解析などに用いられつつある。

一方、サッカーやラクビーのような選手が流動して動くチームスポーツでは、選手の関係性が重要である。例えば、各選手の好むプレースタイルが一致しているか否か、各選手の役割分担が明確か否か、などの要因により、そのチームの得点能力が大きく変化する。また、例えば、選手の位置、選手間の距離などによっても、そのチームの能力は増減する。また、相手選手の位置および特徴によっても、試合を有利に運べるかどうかは異なる。ゆえに、このような関係性を認識する技術が求められている。

特開２０１５−０７０５０３号公報

相互作用を有する対象の関係性を示す指標を算出する装置などを提供する。

本発明の一実施形態であるデータ処理装置は算出部を備える。前記算出部は、ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセットに基づき、少なくとも二つの対象の関係性を示す指標を算出する。

本発明の一実施形態における推定システムを示すブロック図。位置推定モデルに入力されるデータセットの一例を示す図。ニューラルネットワークモデルの一種であるＴｒａｎｓｆｏｒｍｅｒを説明する図。位置推定モデルの一例を示す図。アテンションについて説明する図。位置推定モデルの他の一例を示す図。本発明の一実施形態の出力結果の一例を示す図。本発明の一実施形態における推定システムの全体処理の概略フローチャート。本発明の一実施形態におけるハードウェア構成の一例を示すブロック図。

以下、図面を参照しながら、本発明の実施形態について説明する。

（本発明の一実施形態）
図１は、本発明の一実施形態における推定システムを示すブロック図である。図１の推定システムには、位置データ提供装置１と、特徴データ提供装置２と、データ処理装置３と、出力装置４と、が含まれる。図１に示されたデータ処理装置３は、入力データ生成部３１と、推定部３２と、出力部３３と、を備える。

本実施形態の推定システムは、複数の対象の一つ以上の時点における位置に少なくとも基づき、対象の関係性を推定する。具体的には、対象の関係性を示す指標を算出する。例えば、サッカー、ラクビーなどのスポーツの選手を対象とし、選手のこれまでの動き、つまり複数の時点の位置から、各選手の関係性を推定することが考えられる。なお、複数の対象全てに対して関係性の指標を必ずしも算出する必要はなく、特定の二つの対象の関係性だけが推定されてもよい。また、一つの時点の位置を用いて関係性が推定されてもよい。

本実施形態の推定システムは、ニューラルネットワークに基づくモデルを用いる。ただし、当該モデルは、対象の関係性を示す指標を出力するモデルではない。当該モデルは、複数の対象の一つ以上の時点における位置に基づいて、当該時点以降の対象の位置を推定するモデルである。当該モデルは、当該推定結果と、推定された時点における実際の位置（つまり、正解の位置）と、に基づいて、学習が行われる。当該モデルを位置推定モデルと記載する。選手間の関係性を示す指標は、位置推定モデルの一部において、算出される。

選手間の関係性を示す指標の正解は不明であるため、選手間の関係性を推定するモデルのパラメータを学習により、最適値に近づけることは困難である。すなわち、対象の関係性を示す指標を高精度に算出可能な、ニューラルネットワークに基づくモデルを生成することは困難である。そこで、本実施形態では、対象の関係性が対象の今後の位置に影響を与えることに着目して、対象の関係性を算出するモデルが位置推定モデルの一部として組み込まれている。対象の関係性を算出するモデルを関係性推定モデルと記載する。すなわち、関係性推定モデルは、位置推定モデル内に含まれる。

例えば、サッカーなどのスポーツの選手は、他の選手の動きを考慮して、自分の動きを決定する。これは、言い換えれば、各選手は、相互作用を有しており、各選手の位置および動きは、他の選手の位置および動きに影響を与える。ゆえに、関係性推定モデルを含む位置推定モデルは、このような相互作用を有する対象の位置を、関係性推定モデルを含まない位置推定モデルよりも高精度に推定できるようになる。

そして、関係性推定モデルのパラメータは、位置推定モデルのパラメータでもある。ゆえに、当該推定結果と、正解の位置と、に基づいて位置推定モデルのパラメータが更新されれば、関係性推定モデルのパラメータも更新される。したがって、対象の関係性を示す指標を高精度に算出することが可能となる。

したがって、本実施形態の推定システムは、相互作用を有する複数の対象の一つ以上の時点における位置に基づき、当該時点から一定時間後の対象の位置を従来技術よりも高精度に推定することも可能であり、当該対象の関係性を示す指標を従来技術よりも高精度に算出することも可能である。すなわち、関係性推定モデルを含む位置推定モデルは、公知のものではなく、従来のモデルよりも優れた効果を有する。

なお、対象は、予め定められていてもよいが、所定領域内に存在するといった条件に基づいて特定されてもよい。例えば、テーマパークなどの監視カメラにて撮影された領域に存在する歩行者を対象としてもよい。また、対象は、人間に限定されるわけではなく、ロボット、車、航空機などの機械でもよいし、仮想世界におけるプレイヤーキャラクター等のデータであってもよい。

また、本実施形態は、様々な分野で利用可能である。例えば、量子力学の分野においては、分子や原子、あるいはそれを構成する電子などの関係性を推定してもよい。あるいは、化学の分野において、時間経過とともに関係性が変わる化学分子の、指定された時点における関係性を推定してもよい。

また、本説明において用いられる用語は、推定される対象等に応じて読み替えられるべきである。例えば、アイスホッケーの選手を対象とする場合、サッカーを例にした説明において用いられる「ボール」という用語は、「パック」と読み替えられるべきである。

なお、図１の例では、１台のデータ処理装置３により位置推定が行われることを想定しているが、複数の装置に分散されて行われてもよい。つまり、データ処理装置３は、一つ以上の処理を担当する複数の装置に細分化されていてもよい。例えば、データ処理装置３が、入力データ生成部３１を含む装置と、推定部３２を含む装置と、に別れていてもよい。また、データ処理装置３の各構成要素も、さらに細分化されていてもよい。

また、データ処理装置３が上記以外の構成要素を有していてもよい。例えば、本実施形態では、関係性を示す指標などが出力されることを想定しているが、上記以外の構成要素が位置推定の結果を用いて、さらに処理を行ってもよい。例えば、位置推定結果（つまり推定された位置）と、当該結果に対する正解（つまり測定された実際の位置）と、を比較し、位置推定の誤差が閾値以上であった回数を数え、１試合における回数が閾値以上の選手を特異なサンプルとして検出する、といった処理が行われてもよい

なお、推定システム内の各装置は、通信ネットワーク等を介して、データの送受が可能であるとする。また、各装置のデータの入力を司る構成要素（つまり、入力部）と、処理に必要なデータを記憶する構成要素（つまり、記憶部）については、汎用的なものでよいため、図示せず、説明も省略する。

推定システム内の各装置について説明する。位置データ提供装置１は、位置データをデータ処理装置３に提供する。位置データは、複数の対象の複数の時点における位置に関するデータである。例えば、サッカーなどのピッチを平面図にて表し、対象である選手の位置を、当該平面図におけるＸ座標およびＹ座標で表すことが想定される。なお、位置の表現形式は、特に限られるものではない。例えば、Ｘ座標およびＹ座標ではなく、ピッチの中心からの距離と角度によって表されてもよい。また、最初の時点よりも後の時点における位置は、その前の時点における位置との差分、つまり変化量で表されてもよい。

座標の測定方法については、例えば、航法衛星による測位などがある。選手の位置を測定するトラッキングシステムは実用化されており、そのようなトラッキングシステムによるトラッキングデータを、データ処理装置３は位置データとして取得すればよい。

また、位置データが示す位置に係る時点、つまり、位置が測定された時点を「測定時点」と記載する。測定時点は一定間隔であることを想定する。例えば、２５ｆｐｓのトラッキングデータを１０フレーム間隔でサンプリングし、サンプリングごとに対象の位置を割り出す場合では、測定時点の間隔は０．４秒となる。

また、選手のプレーを高度に認識することができる場合には、より詳細な情報を位置データに含めることが考えられる。例えば、位置の推移により、選手の移動状況（走ってる、歩いている、止まっているなど）、移動方向などを推定し、位置データに含めることが考えられる。また、選手の向き、姿勢などを認識できるのであれば、それらを位置データに含めてよい。移動状況などのデータをさらに用いることにより、位置推定の精度が向上すると考えられる。なお、このような詳細な情報は、位置データ提供装置１から提供されてもよいし、時系列の位置データに基づき、データ処理装置３が算出してもよい。また、位置データではなく、後述の特徴データに含まれていてもよい。

特徴データ提供装置２は、複数の対象それぞれの特徴を示す特徴データをデータ処理装置３に提供する。特徴データには、選手の所属先を示す情報が少なくとも含まれていることが好ましい。例えば、チームαとチームβが試合をしている場合に、選手Ａがチームαに所属していることを示す情報が特徴データに含まれていることが好ましい。なお、選手の所属先を示すデータは、所属先の名称でなく、論理値であってもよい。例えば、選手ＡおよびＢの所属先は「０」で表されており、選手Ｃの所属先は「１」で表されていることが考えられる。この場合、選手Ａは、チームαとチームβのいずれに所属しているかは不明であるが、選手Ａにとって選手Ｂは味方であり、選手Ａにとって選手Ｃは敵であることは区別することができる。このように、選手の所属先は、各選手の敵と味方を区別可能なものであればよい。

また、選手の所属先以外にも、様々な情報が特徴データに含まれることが考えられる。例えば、身長、体重、利き足（左右の足のいずれを主に利用するか）といった選手の身体的特徴が含まれてもよい。また、短距離走の公表タイム、今シーズンの得点数といった選手の能力を示す特徴が含まれていてもよい。また、パスを出すことが多い、シュートを打つことが多い、ヘディングを避ける傾向にあるといった選手のプレースタイルを示す特徴が含まれていてもよい。また、攻める方向、警告の有無、退場の有無、現試合の得点数、現試合のアシスト数、現試合の移動距離、選手の疲労度、負傷の有無など、現在の試合に関する情報が含まれていてもよい。その他、登録ポジション、年俸、直近の試合からの日数などいった情報も含まれていてもよい。なお、これらの情報は、数値で表されてよいし、カテゴリＡ、カテゴリＢ、カテゴリＣといった分類項目に対応する論理値で表されていてもよい。

選手の位置が同じであっても、選手の特徴が異なれば、その動きは異なると考えられる。また、選手の位置が同じであっても、試合状況が異なれば、その動きは異なると考えられる。例えば、試合終了間際において勝っているチームがボールを保持している場合、ボールを奪われるリスクを避けるために、当該チームの選手は、ボールホルダーを追い越す動きを避ける傾向がある。したがって、位置データだけでなく特徴データを用いて、位置推定を行うことが好ましい。

また、特徴データは、選手自体の特徴に限らず、選手に関連する情報を含んでいてもよい。例えば、チームの所属リーグ、チームのフォーメーション（選手配置）といった、選手が所属するチームの特徴が含まれていてもよい。また、天候（温度、湿度、風向、風力なども含む）、ピッチコンディション（芝、土など）、試合場がホームか否か、試合場の名称といった試合環境に関する情報も含んでいてもよい。このように、様々な情報を特徴データに含ませてよい。

データ処理装置３は、少なくとも位置データに基づき、位置推定モデルを用いて、対象の関係性または位置を推定する。推定される位置の時点を「推定時点」と記載する。

入力データ生成部３１は、少なくとも位置データに基づき、位置推定モデルに入力されるデータを生成する。なお、前述の通り、位置データとともに、特徴データも、当該データの生成に用いられてよい。なお、後述するが、位置推定モデルがエンコーダ‐デコーダ構造を有するモデルの場合には、位置推定モデルに入力されるデータとしては、エンコーダに入力されるデータセットと、デコーダに入力される部分データと、がある。

図２は、位置推定モデルに入力されるデータセットの一例を示す図である。図２に示すように、データセットは、対象の数×測定時点の数の行列形式で表すことができる。図２の例のデータセットの行は、対象に対応づけられている。対象は記号Ｔ_i（ｉは１以上の整数）で表されており、図２の例では、サッカーの２２人の選手とボールを対象としているため、Ｔ_１からＴ_２３までの記号が示されている。また、図２の例のデータセットの列は、測定時点に対応づけられている。測定時点は記号ｔ_m（ｍは１以上の整数）で表されており、図２の例では、測定時点がｔ_１からｔ_ｎまでの記号で表されている（ｎは１以上の整数）。

行列の各要素はベクトル形式で表され、当該ベクトルは、少なくとも、対象の位置または位置の変化量を示す要素を含む。図２の例では、対象Ｔ_ｉおよび測定時点ｔ_mに係るＸ座標およびＹ座標の変化量はそれぞれ、記号ΔＸ_ｉ−mおよびΔＹ_ｉ−mと表されている。例えば、対象Ｔ_２および測定時点ｔ_３に係る要素には、Ｘ座標の変化量ΔＸ_２−３と、Ｙ座標の変化量ΔＹ_２−３と、が示されている。対象Ｔ_ｉおよび測定時点ｔ_mに係るＸ座標およびＹ座標をそれぞれ、記号Ｘ_ｉ−mおよびＹ_ｉ−mで表した場合、ΔＸ_{ｉ−m＋１}＝Ｘ_{ｉ−m＋１}−Ｘ_ｉ−m、ΔＹ_{ｉ−m＋１}＝Ｙ_{ｉ−m＋１}−Ｙ_ｉ−mが成り立つ。なお、当該ベクトルには、位置データから導出可能な値、特徴データから導出可能な値などが含まれていてもよい。

また、一つの測定時点における全対象の要素の集合を「部分データ」と記載する。部分データは、データセットの１列分のデータに相当する。例えば、測定時点ｔ_ｎの部分データは、図２の点線の枠で囲まれた部分のデータとなる。ゆえに、データセットは、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関する部分データを複数含む。

なお、入力データ生成部３１が、データセットおよび部分データを推定部３２に送信してもよいし、入力データ生成部３１がデータセットを推定部３２に送信して推定部３２がデータセットから部分データを抽出してもよい。

推定部３２は、データセットに基づいて、データセットに係る測定時点よりも後の推定時点における複数の対象のうちの少なくとも一つの位置を推定する。推定部３２は、位置推定モデルをソフトウェアの一種であるプログラムモジュールとして用いる。ゆえに、図１では、推定部３２内に位置推定モデルが示されている。また、前述のように位置推定モデルには関係性推定モデルが含まれる。ゆえに、図１では、位置推定モデル内に関係性推定モデルが示されている。

位置推定モデルは、様々な構造を取り得る。ここでは、位置推定モデルをエンコーダ‐デコーダ構造を有するモデルにより説明する。

位置推定モデルを説明する前に、位置推定モデルのベースになったＴｒａｎｓｆｏｒｍｅｒについて説明する。図３は、ニューラルネットワークモデルの一種であるＴｒａｎｓｆｏｒｍｅｒを説明する図である。図３に示されたＴｒａｎｓｆｏｒｍｅｒ５は、高精度な機械翻訳を可能にすることで知られている。本実施形態にて用いられる位置推定モデルは、Ｔｒａｎｓｆｏｒｍｅｒのような連続するデータを、各データの関係性を考慮しつつ別の連続するデータへ変換するネットワークモデルに基づき設計されている。

機械翻訳では、翻訳対象の原文を単語ごとに、より正確には、形態素と呼ばれる最小単位ごとに扱うが、原文の形態素を、対応する訳文の形態素に単純に置き換えず、原文内の他の形態素を考慮しつつ、訳文の形態素を決定する。これにより、文意に沿った翻訳が可能となる。例えば、複数の意味を有する形態素が登場した場合、機械翻訳は、いずれの意味に該当するかを、当該形態素の前後に登場した形態素から推定する。すなわち、機械翻訳のモデルは、連続するデータを、各データの関係性を考慮しつつ別の連続するデータへ変換するモデルである。一方、本実施形態における位置推定処理は、位置に関する時系列データを一定時間後の時系列データへ変換する処理のために、同様のモデルを利用する。

以下、Ｔｒａｎｓｆｏｒｍｅｒのモデルについて当該モデルが機械翻訳に用いられる場合を例にして説明する。Ｔｒａｎｓｆｏｒｍｅｒは、エンコーダ‐デコーダ構造を有している。つまり、図３の点線にて示すように、エンコーダ５１と、デコーダ５２と、に分かれている。

エンコーダ５１に入力データとして、原文内の一連の形態素が入力される。エンコーダ５１に入力された各形態素は、ＩｎｐｕｔＥｍｂｅｄｄｉｎｇ５１１およびＰｏｓｉｔｉｏｎＥｎｃｏｄｉｎｇ５１２の事前処理を介して、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３に入力される。ＩｎｐｕｔＥｍｂｅｄｄｉｎｇ５１１は、エンコーダ５１における各演算が行えるように、形態素をベクトルに変換する。ＰｏｓｉｔｉｏｎＥｎｃｏｄｉｎｇ５１２は、当該ベクトルに対し、対応する形態素の原文上の位置に関する情報、つまり、対応する形態素が原文の何番目にあるかといった情報を付与する。

Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３は、複数のＳｃａｌｅｄＤｏｔ−ＰｒｏｄｕｃｔＡｔｔｅｎｔｉｏｎの処理を順に実行して、処理結果を結合するものである。ＳｃａｌｅｄＤｏｔ−ＰｒｏｄｕｃｔＡｔｔｅｎｔｉｏｎは、キーとバリューから成るメモリから、クエリによって情報を引き出すためのアテンションを利用したニューラルネットワークの一種であり、内積を用いてクエリの大きさをベクトルの次元数（深さ）に応じて小さくする。また、ここでのＳｃａｌｅｄＤｏｔ−ＰｒｏｄｕｃｔＡｔｔｅｎｔｉｏｎは、キーおよびバリューが、クエリと同じものであるセルフアテンションである。つまり、クエリ、キー、およびバリューは、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３に入力される同一のデータである。

Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３からの出力データは、Ａｄｄ＆Ｎｏｒｍ５１４により、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３への入力データが加算された上で、層正規化処理によって正規化される。Ａｄｄ＆Ｎｏｒｍ５１４からの出力データは、ＦｅｅｄＦｏｒｗａｒｄ５１５に入力されて変換され、Ａｄｄ＆Ｎｏｒｍ５１４による処理と同様に、Ａｄｄ＆Ｎｏｒｍ５１６により正規化される。ＦｅｅｄＦｏｒｗａｒｄ５１５は、全結合のニューラルネットワークである。なお、原文中の形態素の位置ごとに、ＦｅｅｄＦｏｒｗａｒｄ５１５が用意されている。位置ごとに用意されたＦｅｅｄＦｏｒｗａｒｄ５１５のパラメータは同じでも異なっていてもよい。そして、Ａｄｄ＆Ｎｏｒｍ５１６の出力データが有する位置情報に応じて、当該出力データが入力されるＦｅｅｄＦｏｒｗａｒｄ５１５が選出される。

Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３からＡｄｄ＆Ｎｏｒｍ５１６のまでの一連の処理は、所定数ほど繰り返される。つまり、一連の処理の回数が所定数となるまで、Ａｄｄ＆Ｎｏｒｍ５１６からの出力データは、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３に入力される。そして、繰り返し終了後のＡｄｄ＆Ｎｏｒｍ５１６の出力データは、エンコーダ５１の処理結果として、デコーダ５２に入力される。デコーダ５２は、エンコーダ５１からの出力データを用いて、エンコーダ５１からの出力データとは別に入力されたデータを訳文の形態素に変換する。

デコーダ５２は、再帰処理により、順に訳文の形態素を出力する。処理の最初では、例えば、原文の終了を示す「ＥＯＦ」に関するデータがデコーダ５２に入力され、デコーダ５２は、原文の１番目の形態素に対応する訳文の形態素に関するデータを出力する。当該データが、一つの形態素を示す場合もあり得るし、該当する確率とともに、複数の形態素を示す場合もあり得る。次に、当該データから推定された訳文の１番目の形態素がデコーダ５２に入力される。例えば、該当する確率とともに、複数の形態素が出力されたデータに示されていた場合は、最も高確率の形態素が入力され得る。そして、デコーダ５２は、原文の２番目の形態素に対応する訳文の形態素に関するデータを出力する。このようにして、原文の各形態素が順に翻訳されていく。

なお、デコーダ５２の学習時においては、再帰処理は行われずに、正解の訳文の複数の形態素が一度に入力される。そして、正解の訳文の複数の形態素がデコーダ５２から出力されるように、デコーダ５２内のパラメータが調整される。

デコーダ５２に入力されたデータは、エンコーダ５１と同様にして、ＯｕｔｐｕｔＥｍｂｅｄｄｉｎｇ５２１およびＰｏｓｉｔｉｏｎＥｎｃｏｄｉｎｇ５２２の事前処理を介して、ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３に入力される。ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３は、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３と同じくセルフアテンションである。但し、学習時においては、正解の訳文の複数の形態素が一度に入力されるため、ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３が推定すべき形態素の後に登場する正解の形態素にマスクをかけて処理を行う点が、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３とは異なる。

ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３およびＡｄｄ＆Ｎｏｒｍ５２４の処理の後は、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２５の処理が行われる。Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２５は、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３とは異なり、内部のＳｃａｌｅｄＤｏｔ−ＰｒｏｄｕｃｔＡｔｔｅｎｔｉｏｎが用いるキーおよびバリューが、クエリと異なる。Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２５では、キーおよびバリューはエンコーダ５１の出力データであり、クエリは、Ａｄｄ＆Ｎｏｒｍ５２４の出力データである。

Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２５からの出力データは、Ａｄｄ＆Ｎｏｒｍ５２６により正規化された上で、ＦｅｅｄＦｏｒｗａｒｄ５２７に入力される。ＦｅｅｄＦｏｒｗａｒｄ５２７は、ＦｅｅｄＦｏｒｗａｒｄ５１５と同様である。ＦｅｅｄＦｏｒｗａｒｄ５２７の出力は、Ａｄｄ＆Ｎｏｒｍ５２８により正規化される。

デコーダ５２においても、ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３からＡｄｄ＆Ｎｏｒｍ５２８のまでの一連の処理は、所定数ほど繰り返される。なお、デコーダ５２の繰り返し回数は、エンコーダ５１の繰り返し回数と同じとは限らない。そして、繰り返し終了後のＡｄｄ＆Ｎｏｒｍ５２８の出力は、Ｌｉｎｅａｒ５２９およびＳｏｆｔｍａｘ５２０による正規化を介して整形されて、デコーダ５２にから出力される。

このように、Ｔｒａｎｓｆｏｒｍｅｒのような機械翻訳に用いられるネットワークモデルは、一連のデータを、別の一連のデータに変換していると言え、当該変換は、オートエンコーダなどによる入力データの次元を削減して情報量を小さくするといった圧縮とは異なる。

図４は、位置推定モデルの一例を示す図である。図４の例の位置推定モデルは、Ｔｒａｎｓｆｏｒｍｅｒをベースに作成されており、エンコーダ３２１と、デコーダ３２２と、に別れている。また、本実施形態では、さらに対象の相互作用を考慮するため、対象の配置をグラフとして扱う。すなわち、対象をノードとみなし、対象間の距離をエッジとみなした、グラフとする。そのため、エンコーダ３２１およびデコーダ３２２にそれぞれ、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ（デンスグラフアテンション）３２１３および３２２３が追加されている。なお、ここでは、全てのノードがエッジで連結しているグラフを想定したが、全てのノードがエッジで連結していないグラフを用いてもよい。その場合、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３および３２２３の代わりに、単なるＧｒａｐｈＡｔｔｅｎｔｉｏｎ（グラフアテンション）を用いてもよい。

エンコーダ３２１にデータセットが入力されると、Ｓｐａｔｉａｌ−Ｅｍｂｅｄ３２１１およびＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ３２１２の事前処理を介して、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３に入力される。Ｓｐａｔｉａｌ−Ｅｍｂｅｄ３２１１は、行列形式のデータセット内の各要素をデコーダ３２２の演算用にベクトル変換する。ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ３２１２は、データセット内の各要素の位置に関する情報、つまり、各要素がデータセット内の何行目の何列にあるかといった情報を付与する。

Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、全結合のニューラルネットワークである。Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、入力されたデータセット内の各データに対応するデータを出力する。具体的には、データセット内の各要素がＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３の入力層に入力されると、中間層において同一測定時点の各要素との演算が行われ、出力層から入力された各要素に対応する変換データが出力される。言い換えると、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、データセット内の要素ごとに、同一測定時点の各要素を変数とする演算を行う。例えば、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３に入力された、第ｉの対象の時刻ｔ_ｍにおける要素をＰ_ｉ-ｍにて表し、全対象の数を記号Ｉ（Ｉは２以上の整数）で表すとする。Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、要素Ｐ_ｉ-ｍに対し、要素Ｐ_ｉ-ｍと同一測定時点の各要素｛要素Ｐ_1-ｍ、要素Ｐ_２-ｍ、・・・、要素Ｐ_Ｉ-ｍ｝を変数とする、要素Ｐ_ｉ-ｍのための演算ｆ_ｉ-ｍ（Ｐ_1-ｍ、Ｐ_２-ｍ、・・・、Ｐ_Ｉ-ｍ）を行う。そして、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、データセット内の各要素を、対応する演算結果に置き換える。例えば、要素Ｐ_ｉ-ｍのＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３による変換後の値をＰ_ｉ-ｍ´にて表すとする。Ｐ_ｉ-ｍは、ｆ_ｉ-ｍ（Ｐ_1-ｍ、Ｐ_２-ｍ、・・・、Ｐ_Ｉ-ｍ）の結果に置き換えられる。例えば、Ｐ_ｉ-ｍ´は次式のように表される。

α_ij-ｍはアテンションと称される係数であり、測定時点ｔ_mにおいて第ｉの対象にとっての第ｊの対象の重要度を意味する。アテンションα_ij-ｍは、例えば、活性化関数の一種であるＬｅａｋｙＲｅＬＵを用いて、次式で求められる。

a^Tは重みベクトルパラメータ、Ｗは重み行列を意味する。当該重み行列が、関係性推定モデルのパラメータに該当する。

上式（２）に示すように、第ｉの対象の時刻ｔ_ｍにおける要素Ｐ_ｉ-ｍに対する重み行列Ｗ_Ｐi-ｍと、第ｊの対象の時刻ｔ_ｍにおける要素Ｐ_j-ｍに対する重み行列Ｗ_Ｐj-ｍと、時刻ｔ_ｍにおける第ｉの対象の第ｊの対象に対する相対的位置に対する重み行列Ｗ_ｄj-ｍと、に応じて、アテンションα_ij-ｍが変化する。すなわち、学習によって各重み行列が最適値に近づくことにより、アテンションα_ij-ｍも最適値に近づく。また、アテンションは、各対象間の相対的位置に応じて異なるため、アテンションの値は、各時点において異なる。

前述の通り、アテンションは、第ｉの対象にとっての第ｊの対象の重要度を意味し、各対象の関係性を示す指標と言える。すなわち、本実施形態においては、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３が関係性推定モデルである。そして、グラフアテンションによる変換を実行するためのアテンションα_ij-ｍが関係性を示す指標となる。なお、前述の通り、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３の代わりに単なるＧｒａｐｈＡｔｔｅｎｔｉｏｎ（グラフアテンション）を用いてもよいため、関係性推定モデルは、グラフアテンションであればよく、全結合型である必要はない。また、指標は、アテンションα_ij-ｍに基づいて算出されればよい。すなわち、アテンションα_ij-ｍを、関係性を示す指標としてそのまま用いてもよい。あるいは、アテンションα_ij-ｍを用いた所定の演算を行い、その演算結果を当該指標として用いてもよい。

図５は、アテンションについて説明する図である。図５では、便宜的に、要素を三つとしている。図５に示すように、三つの要素Ｐ_１、Ｐ_２、およびＰ_３（ここでは、添え字の時点ｍは省略している）は、ネットワークグラフにおけるノードに相当する。なお、データセットの各要素は、複数の対象のいずれかに対応するため、三つの要素Ｐ_１、Ｐ_２、およびＰ_３の関係性は、第１、第２、および第３の対象の関係性とも言える。また図５では、要素Ｐ_１にとってのアテンションの値が示されている。なお、要素Ｐ_１自身に対するアテンションも存在する。ゆえに、要素Ｐ_１の要素Ｐ_１に対するアテンションα_１１−ｍと、要素Ｐ_１の要素Ｐ_２に対するアテンションα_１２−ｍと、要素Ｐ_１の要素Ｐ_３に対するα_１３−ｍと、が示されている。なお、ある要素にとっての各アテンションの値の総和は、活性化関数によって１となるように調整されている。前述の通り、このアテンションの値をそのまま関係性を示す指標として用いてよい。すなわち、要素Ｐ_１の要素Ｐ_２に対するアテンションを、第１の対象の第２の対象に対する指標（第１の対象にとっての第２の対象の重要度）とみなしてよい。

なお、要素Ｐ_１の要素Ｐ_２に対するアテンションα_１２−ｍと、要素Ｐ_２の要素Ｐ_１に対するアテンションα_２１−ｍと、では値が異なる。ゆえに、第１の対象と第２の対象の関係性を示す指標と言われた場合、第１の対象および第２の対象のいずれを基準にしたものかは不明である。したがって、第１の対象と第２の対象の関係性を示す指標は、第１の対象の第２の対象に対する指標であってもよいし、第２の対象の第１の対象に対する指標であってもよいし、両方の組み合わせ（例えばベクトル）であってもよいし、両方を用いた演算結果（例えば平均値）であってもよい。

なお、上式は一例であり、演算式は適宜に定めてよい。例えば、上記では、活性化関数としてＬｅａｋｙＲｅＬＵを用いたが、他の活性化関数を用いてよい。例えば、ソフトマックス関数、シグモイド関数などを用いてもよい。また、データセット内の全要素が入力層に一度に入力されるのではなく、測定時点ごとに、同一測定時点の要素が入力されていってもよい。このようにして、データセット内の要素の値が、各対象との位置関係が考慮された値に変換される。

Ｍｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ３２１４、Ａｄｄ＆Ｎｏｒｍ３２１５、ＦｅｅｄＦｏｒｗａｒｄ３２１６、およびＡｄｄ＆Ｎｏｒｍ３２１７の処理はそれぞれ、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５１３、Ａｄｄ＆Ｎｏｒｍ５１４、ＦｅｅｄＦｏｒｗａｒｄ５１５、およびＡｄｄ＆Ｎｏｒｍ５１６の処理と同じでよい。また、Ｍｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ３２１４からＡｄｄ＆Ｎｏｒｍ３２１７までの一連の処理も、所定数ほど繰り返される。

デコーダ３２２には、変換前のデータセットの部分データが入力される。通常は、最後の測定時点に係る部分データが入力されると想定されるが、最後の測定時点以外の測定時間に係る部分データであってもよい。デコーダ３２２に入力されたデータが、Ｓｐａｔｉａｌ−Ｅｍｂｅｄ３２２１およびＰｏｓｉｔｉｏｎＥｎｃｏｄｉｎｇ３２２２の事前処理を介して、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２２３に入力される。これらのブロックの処理は、対応するエンコーダ３２１のブロックと同様である。

ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ３２２４、Ａｄｄ＆Ｎｏｒｍ３２２５、Ｍｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ３２２６、Ａｄｄ＆Ｎｏｒｍ３２２７、ＦｅｅｄＦｏｒｗａｒｄ３２２８、およびＡｄｄ＆Ｎｏｒｍ３２２９の処理はそれぞれ、ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２３、Ａｄｄ＆Ｎｏｒｍ５２４、Ｍｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ５２５、Ａｄｄ＆Ｎｏｒｍ５２６、ＦｅｅｄＦｏｒｗａｒｄ５２７、およびＡｄｄ＆Ｎｏｒｍ５２８と同じでよい。また、ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ３２２４からＡｄｄ＆Ｎｏｒｍ３２２９までの一連の処理も、所定数ほど繰り返される。当該所定数は、エンコーダ３２１の所定数と同じでなくともよい。

Ｍｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ３２２６には、Ａｄｄ＆Ｎｏｒｍ３２２５の出力データが入力される。また、Ｍｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ３２２６は、エンコーダ３２１の出力データ、すなわち、エンコーダ３２１によって変換されたデータセットを参照する。Ｍｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ３２２６（より正確にはＭｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ３２２６内のＳｃａｌｅｄＤｏｔ−ＰｒｏｄｕｃｔＡｔｔｅｎｔｉｏｎ）により、エンコーダ３２１の出力データはキーおよびバリューとして用いられ、Ａｄｄ＆Ｎｏｒｍ３２２５の出力データはクエリとして用いられる。

Ａｄｄ＆Ｎｏｒｍ３２２９からの出力データは、デコーダ３２２に入力された部分データに係る時点の次の時点の部分データとなる。最後の測定時点の部分データがデコーダ３２２に入力された場合、デコーダ３２２からの出力データは、最後の測定時点よりも一つ先の時点、つまり最初の推定時点における部分データとなる。そして、Ａｄｄ＆Ｎｏｒｍ３２２９からの出力データは、その次の推定時点における部分データを得るために、Ｒｅｇｒｅｓｓｉｏｎ３２２０により、再び、デコーダ３２２に入力される。つまり、デコーダ３２２の出力データが、さらに次の時点における部分データとして扱われる。このような再帰処理が繰り返されて、所望の推定時点までの部分データが出力される。なお、一つの推定時点に係る部分データのみが要求される場合は、再帰処理は行われなくともよく、Ｒｅｇｒｅｓｓｉｏｎ３２２０は省略されてもよい。

このようにして、位置推定モデルから推定時点における部分データを得ることができる。当該部分データが、推定時点における対象の位置または位置の変化量に関するデータに該当する。なお、位置推定モデルのエンコーダ３２１およびデコーダ３２２の内部構造が図４の例に限られるわけではない。

このように、位置推定モデルは、測定時点のデータセットから推測時点の位置を示す部分データを出力する。これに伴い、位置推定モデルのグラフアテンション（具体的にはＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３）も、測定時点におけるアテンションを算出する。ゆえに、測定時点における関係性を示す指標が算出可能である。また、推測時点におけるアテンション、すなわち、推測時点の位置を示す部分データに基づくアテンションもグラフアテンション（具体的にはＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２２３）により算出される。したがって、実際の位置ではなく、推測の位置に基づいたアテンションを用いて、推測時点における対象の関係性が推定されてもよい。

なお、推定部による学習の際は、エンコーダ３２１には位置推定時と同じくデータセットが入力されるが、デコーダ３２２には実際の位置が示された正解データが入力される。そして、誤差逆伝搬法などの一般的な学習方法により、デコーダ３２２からの出力データが実際の位置に一致するように学習が行われる。当該学習の進行とともに、位置推定モデルのネットワークにおける重み付け係数（パラメータ）が更新されていき、パラメータが適切な値に収束される。

グラフアテンションのパラメータは、位置推定モデルのパラメータでもある。ゆえに、測定時点おけるデータセットを入力データとし、推定時点におけるデータセットを正解データとする位置推定モデルの学習によって、グラフアテンションのパラメータも更新される。

なお、位置推定モデルの位置推定の精度が高い場合、グラフアテンションのアテンション、つまり、関係性を示す指標の精度が高いと考えられる。そのため、推定精度が高い、エンコーダ‐デコーダ構造のtransformerをベースとした位置推定モデルを説明した。しかし、位置推定モデルは、エンコーダ‐デコーダ構造でなくともよい。例えば、位置推定モデルとして、再帰型ニューラルネットワーク（ＲＮＮ）を用いることも考えられる。

図６は、位置推定モデルの他の一例を示す図である。言い換えれば、位置推定モデルの変形例である。Ｓｐａｔｉａｌ−ｅｍｂｅｄ３２１１、ＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ３２１２、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、エンコーダ３２１が有していたものと同じであり、データセットに対する処理も同じである。なお、Ｄｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ３２１３は、単なるグラフアテンションでもよい。変換されたデータセットは、ＲＮＮ３２１８に入力される。

ＲＮＮ３２１８は、データセット内の部分データから、当該部分データの次の時点の部分データを出力する。また、出力された部分データは、再帰されて、ＲＮＮ３２１８の新たな入力となる。こうして、Ｔｒａｎｓｆｏｒｍｅｒベースの位置推定モデルと同様に、推定時点の部分データが順に出力される。ゆえに、図６に示したような位置推定モデルでも、学習により位置推定を行うことが可能となる。したがって、図６に示したような位置推定モデルに含まれるグラフアテンションも、位置推定モデルの学習によって、アテンションを適切に更新することが可能である。

推定部３２は、二つの対象に係るアテンションに基づいて、当該二つの対象の関係性を示す指標を算出する。前述の通り、第１の対象と第２の対象の関係性を示す指標は、第１の対象の第２の対象に対する指標であってもよいし、第２の対象の第１の対象に対する指標であってもよいし、両方の組み合わせ（例えばベクトル）であってもよい、両方を用いた演算結果（例えば平均値）であってもよい。推定部３２は、予め定められた規定に基づいて、指標を算出する。

なお、必ずしも複数の対象全ての関係性が推定される必要はない。推定部は、各対象のその他の対象に対する指標を全て算出してもよいし、指定された二つの対象のみの指標を算出してもよい。当該指定は、図示されていない入力装置から受け付けてもよい。

なお、推定部３２は、位置推定モデルの出力、すなわち、推定時点における部分データに基づいて、対象の推定時点における位置も推定してもよい。その場合、推定部３２は、単に、部分データが示す位置を、推定の位置としてもよい。あるいは、複数の位置推定モデルを用いて複数の推定時点における部分データを生成し、複数の部分データに基づき、推定の位置を決定してもよい。

出力部３３は、データ処理装置３の処理結果を出力装置４に出力する。出力装置４は、ディスプレイなどといったデータ処理装置３の処理結果をユーザに示す装置である。出力装置４は、特に限られるものではなく、出力部３３の出力形式も出力装置４に応じて変えてよい。例えば、出力部３３により、画像が出力されてもよいし、テキストや数値が含まれたファイルが出力されてもよく、それらが含まれたメールなどのデータが出力されてもよい。

なお、本説明において、「画像」という用語は、静止画および動画を包括する。すなわち、出力部により出力される画像は、静止画でも動画でもよい。

出力部３３は、位置推定の結果だけでなく、位置推定に用いられた測定時点の位置なども出力してよい。例えば、測定された位置および推定された位置を、所定の背景画像（例えばピッチの平面図）上の位置に変換し、対象を示す記号を、変換した位置に所定の背景画像とともに表示することが考えられる。

出力部は、指標を加工（スケーリング）してもよい。例えば、各指標を、出力装置４を介して指標を閲覧するユーザにとって比較しやすいような値に変えることが考えられる。例えば、推定部により、第１の対象にとっての第２から第１１の対象に対する各指標が算出されたとする。その場合、出力部は、各指標のうちの最小値を０（ＭＩＮ）に、最大値を１（ＭＡＸ）に変換し、残りの各指標の値を当該最小値および当該最大値に基づいた相対的な値に変換してもよい。すなわち、出力部は、各指標に対する正規化を行ってもよい。あるいは、出力部は、各指標の平均値が０、標準偏差が１になるように、各指標に対する標準化を行ってもよい。このように、出力部は、公知の手法を用いて、各指標の値に基づいて各指標の値を相対値に変換し、変換された相対値を指標として出力してもよい。なお、当該変換は、出力部ではなく推定部が行ってもよい。

また、出力部は、数値ではなく、グラフなどといった値の大きさを表す画像によって指標を出力してもよい。

また、出力部は、指標の算出に用いられたデータセットなども出力してもよい。また、当該出力においても、数値ではなく、該画像によってデータを表してもよい。例えば、出力部は、データセットが示す各対象の位置を所定の背景画像の相対的な位置に変換し、当該相対的な位置に、対象を示すマークを表示してもよい。

図７は、本発明の一実施形態における推定システムの出力結果の一例を示す図である。図７の上側には、サッカーのピッチを表す背景画像が示され、当該背景画像上にサッカーの各選手の位置の推移が示されている。三角形のマークが、ある時点（対象時点）における選手の位置を表す。白塗りの三角形と、黒塗りの三角形とに分かれているが、これは選手が属するチームを表す。当該マークの傍に示された数字は、選手の背番号を表す。前述の通り、これらの情報は、特徴データから得ることができる。また、白抜きの丸はボールの軌跡を表す。また、点（プロット）は、対象時点よりも前の時点における選手の位置を示す。前述の通り、出力部は、データセットが示す複数の時点の各対象の位置を、サッカーのピッチを表す背景画像上の相対的な位置に変換して、当該相対的な位置にマークなどを表示することにより、図７の上側の画像を表示することができる。

また、図７の下側には、特定の選手にとっての他の選手に対する相対的指標が棒グラフにより表されている。図７の例では、味方背番号８の選手にとっての他の選手に対する相対的指標と、味方背番号７の選手にとっての他の選手に対する相対的指標と、が示されている。当該相対的指標は、正規化されたものであり、最小値が０と、最大値が１となっている。なお、正規化はチームごとに行われている。ゆえに、味方チームにも敵チームにも、指標の値が０の選手と、指標の値が１の選手と、が存在する。

関係性は、対象の位置にも大きく影響されるため、このように、各対象の位置と、関係性を示す指標と、が並べて表示されることにより、位置と指標との関係性を理解することができる。

なお、出力部の出力は特に限られるものではなく、様々な情報を出力してよい。例えば、位置データ提供装置から位置データとともに試合中の実際の画像が提供される場合は、対象時点における実際の画像が表示されてもよい。

さらに、出力部３３は、特徴データに基づき、出力する記号を変えてもよい。例えば、選手の属するチームに応じて記号の色を変えることが考えられる。また、登録ポジションごとに異なる記号を用いるといったことが考えられる。これにより、より試合の状況を認識することが可能となる。また、年俸に応じて記号の大きさを調整するといったことが考えられる。また、図示されていない入力装置を介して、ユーザの指示を受け付けて、ユーザから指定された選手の記号を変えてもよい。

次に、本実施形態の処理の流れについて説明する。図８は、本発明の一実施形態における推定システムの全体処理の概略フローチャートである。なお、本フローチャートでは、位置推定モデルは学習済みとする。

位置データ提供装置１が、試合の各時点の各選手の位置座標などを、各時点の位置データとして、データ処理装置３に送信する（Ｓ１０１）。一方、特徴データ提供装置２は、各時点の特徴データをデータ処理装置３に送信する（Ｓ１０２）。なお、特徴データの内容が試合中に変化しない場合は、全時点の特徴データとして、一つの特徴データを送信すればよい。

データ処理装置３内の入力データ生成部３１は、位置データと特徴データから位置推定モデルに入力されるデータセットを生成する（Ｓ１０３）。推定部３２は、位置推定モデルにデータセットを入力する（Ｓ１０４）。これにより、位置推定モデルからは、データセットに係る時点におけるアテンションと、当該時点よりも後の時点における部分データと、が算出される（Ｓ１０５）。推定部３２が、アテンションに基づき、対象の関係性を示す指標を算出する（Ｓ１０６）。

なお、位置推定モデルにより推定された推測時点の位置、つまり、実際の位置ではない推測位置に基づいて、指標が算出されてもよい。その場合は、位置推定モデルに、位置推定モデルから出力された部分データが再帰的に入力されて、部分データに係る時点の関係性を示す指標と、部分データに係る時点の次の時点における部分データと、が算出される。これを繰り返して、複数の推測時点における推測の指標が算出されてもよい。

出力部３３は、指標を数値または画像などで出力する（Ｓ１０７）。指標の値は、他の指標との相対的な値に変換されていてもよい。すなわち、相対的指標が出力されてもよい。また、推定された位置などを出力してもよい。こうして、フローは終了する。

なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。

以上のように、本実施形態によれば、対象の相互作用を考慮するためグラフアテンションを加えた位置推定モデルを用いて、トラッキングデータのような複数の対象の一つ以上の測定時点の位置を示すデータから、対象の関係性を推定することができる。

前述した実施形態における、データ処理装置３などの各装置の一部又は全部は、ハードウェアで構成されていてもよいし、ＣＰＵ（Central Processing Unit）、又はＧＰＵ（Graphics Processing Unit）等が実行するソフトウェア（プログラム）の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、ＣＤ−ＲＯＭ（Compact Disc-Read Only Memory）、又はＵＳＢ（Universal Serial Bus）メモリ等の非一時的な記憶媒体（非一時的なコンピュータ可読媒体）に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがＡＳＩＣ（Application Specific Integrated Circuit）、又はＦＰＧＡ（Field Programmable Gate Array）等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。

ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。

図９は、前述した実施形態における各装置のハードウェア構成の一例を示すブロック図である。各装置は、プロセッサ７１と、主記憶装置７２と、補助記憶装置７３と、ネットワークインタフェース７４と、デバイスインタフェース７５と、を備え、これらがバス７６を介して接続されたコンピュータ７として実現されてもよい。

図９のコンピュータ７は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図９では、１台のコンピュータ７が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース７４等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置は、１又は複数の記憶装置に記憶された命令を１台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた１台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。

前述した実施形態における各装置の各種演算は、１又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ７と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、１台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。

プロセッサ７１は、コンピュータの制御装置及び演算装置を含む電子回路（処理回路、Processing circuit、Processing circuitry、ＣＰＵ、ＧＰＵ、ＦＰＧＡ、又はＡＳＩＣ等）であってもよい。また、プロセッサ７１は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ７１は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ７１は、量子コンピューティングに基づく演算機能を含むものであってもよい。

プロセッサ７１は、コンピュータ７の内部構成の各装置等から入力されたデータやソフトウェア（プログラム）に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ７１は、コンピュータ７のＯＳ（Operating System）や、アプリケーション等を実行することにより、コンピュータ７を構成する各構成要素を制御してもよい。

前述した実施形態における各装置は、１又は複数のプロセッサ７１により実現されてもよい。ここで、プロセッサ７１は、１チップ上に配置された１又は複数の電子回路を指してもよいし、２つ以上のチップあるいはデバイス上に配置された１又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。

主記憶装置７２は、プロセッサ７１が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置７２に記憶された情報がプロセッサ７１により読み出される。補助記憶装置７３は、主記憶装置７２以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における各装置において各種データを保存するための記憶装置は、主記憶装置７２又は補助記憶装置７３により実現されてもよく、プロセッサ７１に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態におけるデータ処理装置３の図示されていない記憶部は、主記憶装置７２又は補助記憶装置７３に実装されてもよい。

記憶装置（メモリ）１つに対して、複数のプロセッサが接続（結合）されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ１つに対して、複数の記憶装置（メモリ）が接続（結合）されてもよい。前述した実施形態における各装置が、少なくとも１つの記憶装置（メモリ）とこの少なくとも１つの記憶装置（メモリ）に接続（結合）される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも１つのプロセッサが、少なくとも１つの記憶装置（メモリ）に接続（結合）される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置（メモリ））とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置（メモリ）がプロセッサと一体になっている構成（例えば、Ｌ１キャッシュ、Ｌ２キャッシュを含むキャッシュメモリ）を含んでもよい。

ネットワークインタフェース７４は、無線又は有線により、通信ネットワーク８に接続するためのインタフェースである。ネットワークインタフェース７４は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース７４により、通信ネットワーク８を介して接続された外部装置９Ａと情報のやり取りが行われてもよい。

外部装置９Ａは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、又は入力元デバイス等が含まれる。外部装置９Ａとして、外部の記憶装置（メモリ）、例えば、ネットワークストレージ等を備えてもよい。また、外部装置９Ａは、前述した実施形態におけるデータ処理装置３などの各装置の構成要素の一部の機能を有する装置でもよい。そして、コンピュータ７は、処理結果の一部又は全部を、クラウドサービスのように通信ネットワーク８を介して受信してもよいし、コンピュータ７の外部へと送信してもよい。

デバイスインタフェース７５は、外部装置９Ｂと直接接続するＵＳＢ等のインタフェースである。外部装置９Ｂは、外部記憶媒体でもよいし、記憶装置（メモリ）でもよい。データ処理装置３の図示されていない記憶部は、外部装置９Ｂにより実現されてもよい。

外部装置９Ｂは出力装置４でもよい。出力装置４は、例えば、画像を表示するための表示装置でもよいし、音声等を出力する装置等でもよい。例えば、ＬＣＤ（Liquid Crystal Display）、ＣＲＴ（Cathode Ray Tube）、ＰＤＰ（Plasma Display Panel）、有機ＥＬ（Electro Luminescence）パネル、スピーカ、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力先デバイス等があるが、これらに限られるものではない。また、外部装置９Ｂは図示されていない入力装置でもよい。入力装置は、キーボード、マウス、タッチパネル、又はマイクロフォン等のデバイスを備え、これらのデバイスにより入力された情報をコンピュータ７に与える。

本明細書（請求項を含む）において、「a、bおよびcの少なくとも１つ（一方）」又は「a、b又はcの少なくとも１つ（一方）」の表現（同様な表現を含む）は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素（a、b及びc）以外の他の要素を加えることも含む。

本明細書（請求項を含む）において、「データを入力として／データに基づいて／に従って／に応じて」等の表現（同様な表現を含む）は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を入力として用いる場合を含む。また「データに基づいて／に従って／に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び／又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの（例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等）を出力とする場合も含む。

本明細書（請求項を含む）において、「接続される（connected）」及び「結合される（coupled）」との用語は、直接的な接続／結合、間接的な接続／結合、電気的（electrically）な接続／結合、通信的（communicatively）な接続／結合、機能的（operatively）な接続／結合、物理的（physically）な接続／結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続／結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。

本明細書（請求項を含む）において、「ＡがＢするよう構成される（A configured to B）」との表現は、要素Ａの物理的構造が、動作Ｂを実行可能な構成を有するとともに、要素Ａの恒常的（permanent）又は一時的（temporary）な設定（setting/configuration）が、動作Ｂを実際に実行するように設定（configured/set）されていることを含んでよい。例えば、要素Ａが汎用プロセッサである場合、当該プロセッサが動作Ｂを実行可能なハードウェア構成を有するとともに、恒常的（permanent）又は一時的（temporary）なプログラム（命令）の設定により、動作Ｂを実際に実行するように設定（configured）されていればよい。また、要素Ａが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Ｂを実際に実行するように構築（implemented）されていればよい。

本明細書（請求項を含む）において、含有又は所有を意味する用語（例えば、「含む（comprising/including）」及び有する「（having）等）」は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。

本明細書（請求項を含む）において、ある箇所において「１つ又は複数（one or more）」又は「少なくとも１つ（at least one）」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）が用いられているとしても、後者の表現が「１つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現（a又はanを冠詞とする表現）は、必ずしも特定の数に限定されないものとして解釈されるべきである。

本明細書において、ある実施例の有する特定の構成について特定の効果advantage/result）が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の１つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び／又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び／又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。

本明細書（請求項を含む）において、「最大化（maximize）」等の用語は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化（minimize）」等の用語は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化（optimize）」等の用語は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。

以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。

１：位置データ提供装置、２：特徴データ提供装置、３：データ処理装置、３１：入力データ生成部、３２：推定部、３２１：推定部３２内のエンコーダ、３２２：推定部３２内のデコーダ、３２１１：エンコーダ３２１内のＳｐａｔｉａｌ−ｅｍｂｅｄ、３２１２：エンコーダ３２１内のＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ、３２１３：エンコーダ３２１内のＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ、３２１４：エンコーダ３２１内のＭｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ、３２１５、３２１７：エンコーダ３２１内のＡｄｄ＆Ｎｏｒｍ、３２１６：エンコーダ３２１内のＦｅｅｄＦｏｒｗａｒｄ、３２１８：再帰型ニューラルネットワーク（ＲＮＮ）、３２２１：デコーダ３２２内のＳｐａｔｉａｌ−ｅｍｂｅｄ、３２２２：デコーダ３２２内のＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ、３２２３：デコーダ３２２内のＤｅｎｓｅ−ＧｒａｐｈＡｔｔｅｎｔｉｏｎ、３２２４：デコーダ３２２内のＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＳｅｌｆ−Ａｔｔｅｎｔｉｏｎ、３２２５、３２２７、３２２９：デコーダ３２２内のＡｄｄ＆Ｎｏｒｍ、３２２６：デコーダ３２２内のＭｕｌｔｉ−ＨｅａｄＳｏｕｒｃｅ−ＴａｒｇｅｔＡｔｔｅｎｔｉｏｎ、３２２８：デコーダ３２２内のＦｅｅｄＦｏｒｗａｒｄ、３２２０：Ｒｅｇｒｅｓｓｉｏｎ、３３：出力部、４：出力装置、５：Ｔｒａｎｓｆｏｒｍｅｒ、５１：Ｔｒａｎｓｆｏｒｍｅｒのエンコーダ、５２：Ｔｒａｎｓｆｏｒｍｅｒのデコーダ、５１１：ＩｎｐｕｔＥｍｂｅｄｄｉｎｇ、５１２：エンコーダ５１内のＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ、５１３：エンコーダ５１内のＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ、５１４、５１６：エンコーダ５１内のＡｄｄ＆Ｎｏｒｍ、５１５：エンコーダ５１内のＦｅｅｄＦｏｒｗａｒｄ、５２１：ＯｕｔｐｕｔＥｍｂｅｄｄｉｎｇ、５２２：デコーダ５２内のＰｏｓｉｔｉｏｎａｌＥｎｃｏｄｉｎｇ、５２３：ＭａｓｋｅｄＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ、５２４、５２６：デコーダ５２内のＡｄｄ＆Ｎｏｒｍ、５２５：デコーダ５２内のＭｕｌｔｉ−ＨｅａｄＡｔｔｅｎｔｉｏｎ、５２７：デコーダ５２内のＦｅｅｄＦｏｒｗａｒｄ、５２９：デコーダ５２内のＬｉｎｅａｒ、５２０：デコーダ５２内のＳｏｆｔｍａｘ、７：コンピュータ、７１：プロセッサ、７２：主記憶装置、７３：補助記憶装置、７４：ネットワークインタフェース、７５：デバイスインタフェース、７６：バス、８：通信ネットワーク、９（９Ａ、９Ｂ）：外部装置

Claims

ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの対象の関係性を示す指標を算出する算出部
を備えるデータ処理装置。
前記モデルは、前記測定時点におけるデータセット内の各データを変換する、ニューラルネットワークに基づくグラフアテンションを含み、
前記算出部は、前記グラフアテンションによる変換を実行するための、前記二つの対象に係るアテンションに基づいて、前記指標を算出する
請求項１に記載のデータ処理装置。
前記モデルは、前記測定時点におけるデータセットが入力されると、前記測定時点よりも後の推定時点におけるデータセットを出力する
請求項２に記載のデータ処理装置。
前記グラフアテンションのパラメータは、前記モデルのパラメータとして、前記測定時点におけるデータセットを入力データとし、前記測定時点よりも後の推定時点におけるデータセットを正解データとする学習によって更新されたものである
請求項２または３に記載のデータ処理装置。
前記モデルは、
前記グラフアテンションを含み、前記測定時点におけるデータセットを変換するエンコーダと、
変換されたデータセットと、前記データセット内のある測定時点に係るデータと、に基づき、前記推定時点におけるデータセットを生成するデコーダと、
を備える
請求項３または４に記載のデータ処理装置。
出力部をさらに備え、
前記算出部が、前記複数の対象の一つである第１の対象にとってのその他の対象との関係性を示す指標をそれぞれ算出し、
前記出力部が、算出された各指標の値に基づいて変換された各指標の相対値、または、前記相対値の大きさを表す画像、を出力する
請求項１ないし５のいずれか一項に記載のデータ処理装置。
前記複数の対象のそれぞれの特徴を示す指標が、前記複数の対象のそれぞれの位置または位置の変化量と対応づけて、前記データセット内に含まれる
請求項１ないし６のいずれか一項に記載のデータ処理装置。
前記複数の対象にチームスポーツの選手が含まれている場合において、
前記複数の対象のそれぞれの特徴を示す指標として、前記複数の対象が属するチームを示す指標が前記データセット内に含まれる
請求項７に記載のデータ処理装置。
ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの関係性を示す指標を算出するステップ
を備えるデータ処理方法。
ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの関係性を示す指標を算出するステップ
を備えるプログラム。
一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか１つに関するデータセット内の各データを変換する、ニューラルネットワークに基づくグラフアテンション
を備え、
前記測定時点におけるデータセットを入力データとし、前記測定時点よりも後の推定時点におけるデータセットを正解データとする学習が行われたことにより、前記測定時点におけるデータセットが入力されると、前記推定時点におけるデータセットを出力する
ニューラルネットワークに基づくモデル。