JP2021081921A - データ処理装置、データ処理方法、プログラム、およびモデル - Google Patents
データ処理装置、データ処理方法、プログラム、およびモデル Download PDFInfo
- Publication number
- JP2021081921A JP2021081921A JP2019208036A JP2019208036A JP2021081921A JP 2021081921 A JP2021081921 A JP 2021081921A JP 2019208036 A JP2019208036 A JP 2019208036A JP 2019208036 A JP2019208036 A JP 2019208036A JP 2021081921 A JP2021081921 A JP 2021081921A
- Authority
- JP
- Japan
- Prior art keywords
- data
- objects
- data set
- time
- attention
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Image Analysis (AREA)
Abstract
【課題】相互作用を有する対象の関係性を示す指標を算出する装置などを提供する。【解決手段】本発明の一実施形態であるデータ処理装置は算出部を備える。前記算出部は、ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセットに基づき、少なくとも二つの対象の関係性を示す指標を算出する。【選択図】図1
Description
本開示は、データ処理装置、データ処理方法、プログラム、およびモデルに関する。
情報処理技術の発達に伴い、複数の対象の位置および動きを高精度に捉えることが可能となっている。例えば、航法衛星による測位、または複数のカメラからの画像を解析する手法により、スポーツの試合中の選手の位置、移動軌跡、走行距離などが算出されている。これらの情報が、スポーツの戦術の研究、対戦相手の解析などに用いられつつある。
一方、サッカーやラクビーのような選手が流動して動くチームスポーツでは、選手の関係性が重要である。例えば、各選手の好むプレースタイルが一致しているか否か、各選手の役割分担が明確か否か、などの要因により、そのチームの得点能力が大きく変化する。また、例えば、選手の位置、選手間の距離などによっても、そのチームの能力は増減する。また、相手選手の位置および特徴によっても、試合を有利に運べるかどうかは異なる。ゆえに、このような関係性を認識する技術が求められている。
相互作用を有する対象の関係性を示す指標を算出する装置などを提供する。
本発明の一実施形態であるデータ処理装置は算出部を備える。前記算出部は、ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセットに基づき、少なくとも二つの対象の関係性を示す指標を算出する。
以下、図面を参照しながら、本発明の実施形態について説明する。
(本発明の一実施形態)
図1は、本発明の一実施形態における推定システムを示すブロック図である。図1の推定システムには、位置データ提供装置1と、特徴データ提供装置2と、データ処理装置3と、出力装置4と、が含まれる。図1に示されたデータ処理装置3は、入力データ生成部31と、推定部32と、出力部33と、を備える。
図1は、本発明の一実施形態における推定システムを示すブロック図である。図1の推定システムには、位置データ提供装置1と、特徴データ提供装置2と、データ処理装置3と、出力装置4と、が含まれる。図1に示されたデータ処理装置3は、入力データ生成部31と、推定部32と、出力部33と、を備える。
本実施形態の推定システムは、複数の対象の一つ以上の時点における位置に少なくとも基づき、対象の関係性を推定する。具体的には、対象の関係性を示す指標を算出する。例えば、サッカー、ラクビーなどのスポーツの選手を対象とし、選手のこれまでの動き、つまり複数の時点の位置から、各選手の関係性を推定することが考えられる。なお、複数の対象全てに対して関係性の指標を必ずしも算出する必要はなく、特定の二つの対象の関係性だけが推定されてもよい。また、一つの時点の位置を用いて関係性が推定されてもよい。
本実施形態の推定システムは、ニューラルネットワークに基づくモデルを用いる。ただし、当該モデルは、対象の関係性を示す指標を出力するモデルではない。当該モデルは、複数の対象の一つ以上の時点における位置に基づいて、当該時点以降の対象の位置を推定するモデルである。当該モデルは、当該推定結果と、推定された時点における実際の位置(つまり、正解の位置)と、に基づいて、学習が行われる。当該モデルを位置推定モデルと記載する。選手間の関係性を示す指標は、位置推定モデルの一部において、算出される。
選手間の関係性を示す指標の正解は不明であるため、選手間の関係性を推定するモデルのパラメータを学習により、最適値に近づけることは困難である。すなわち、対象の関係性を示す指標を高精度に算出可能な、ニューラルネットワークに基づくモデルを生成することは困難である。そこで、本実施形態では、対象の関係性が対象の今後の位置に影響を与えることに着目して、対象の関係性を算出するモデルが位置推定モデルの一部として組み込まれている。対象の関係性を算出するモデルを関係性推定モデルと記載する。すなわち、関係性推定モデルは、位置推定モデル内に含まれる。
例えば、サッカーなどのスポーツの選手は、他の選手の動きを考慮して、自分の動きを決定する。これは、言い換えれば、各選手は、相互作用を有しており、各選手の位置および動きは、他の選手の位置および動きに影響を与える。ゆえに、関係性推定モデルを含む位置推定モデルは、このような相互作用を有する対象の位置を、関係性推定モデルを含まない位置推定モデルよりも高精度に推定できるようになる。
そして、関係性推定モデルのパラメータは、位置推定モデルのパラメータでもある。ゆえに、当該推定結果と、正解の位置と、に基づいて位置推定モデルのパラメータが更新されれば、関係性推定モデルのパラメータも更新される。したがって、対象の関係性を示す指標を高精度に算出することが可能となる。
したがって、本実施形態の推定システムは、相互作用を有する複数の対象の一つ以上の時点における位置に基づき、当該時点から一定時間後の対象の位置を従来技術よりも高精度に推定することも可能であり、当該対象の関係性を示す指標を従来技術よりも高精度に算出することも可能である。すなわち、関係性推定モデルを含む位置推定モデルは、公知のものではなく、従来のモデルよりも優れた効果を有する。
なお、対象は、予め定められていてもよいが、所定領域内に存在するといった条件に基づいて特定されてもよい。例えば、テーマパークなどの監視カメラにて撮影された領域に存在する歩行者を対象としてもよい。また、対象は、人間に限定されるわけではなく、ロボット、車、航空機などの機械でもよいし、仮想世界におけるプレイヤーキャラクター等のデータであってもよい。
また、本実施形態は、様々な分野で利用可能である。例えば、量子力学の分野においては、分子や原子、あるいはそれを構成する電子などの関係性を推定してもよい。あるいは、化学の分野において、時間経過とともに関係性が変わる化学分子の、指定された時点における関係性を推定してもよい。
また、本説明において用いられる用語は、推定される対象等に応じて読み替えられるべきである。例えば、アイスホッケーの選手を対象とする場合、サッカーを例にした説明において用いられる「ボール」という用語は、「パック」と読み替えられるべきである。
なお、図1の例では、1台のデータ処理装置3により位置推定が行われることを想定しているが、複数の装置に分散されて行われてもよい。つまり、データ処理装置3は、一つ以上の処理を担当する複数の装置に細分化されていてもよい。例えば、データ処理装置3が、入力データ生成部31を含む装置と、推定部32を含む装置と、に別れていてもよい。また、データ処理装置3の各構成要素も、さらに細分化されていてもよい。
また、データ処理装置3が上記以外の構成要素を有していてもよい。例えば、本実施形態では、関係性を示す指標などが出力されることを想定しているが、上記以外の構成要素が位置推定の結果を用いて、さらに処理を行ってもよい。例えば、位置推定結果(つまり推定された位置)と、当該結果に対する正解(つまり測定された実際の位置)と、を比較し、位置推定の誤差が閾値以上であった回数を数え、1試合における回数が閾値以上の選手を特異なサンプルとして検出する、といった処理が行われてもよい
なお、推定システム内の各装置は、通信ネットワーク等を介して、データの送受が可能であるとする。また、各装置のデータの入力を司る構成要素(つまり、入力部)と、処理に必要なデータを記憶する構成要素(つまり、記憶部)については、汎用的なものでよいため、図示せず、説明も省略する。
推定システム内の各装置について説明する。位置データ提供装置1は、位置データをデータ処理装置3に提供する。位置データは、複数の対象の複数の時点における位置に関するデータである。例えば、サッカーなどのピッチを平面図にて表し、対象である選手の位置を、当該平面図におけるX座標およびY座標で表すことが想定される。なお、位置の表現形式は、特に限られるものではない。例えば、X座標およびY座標ではなく、ピッチの中心からの距離と角度によって表されてもよい。また、最初の時点よりも後の時点における位置は、その前の時点における位置との差分、つまり変化量で表されてもよい。
座標の測定方法については、例えば、航法衛星による測位などがある。選手の位置を測定するトラッキングシステムは実用化されており、そのようなトラッキングシステムによるトラッキングデータを、データ処理装置3は位置データとして取得すればよい。
また、位置データが示す位置に係る時点、つまり、位置が測定された時点を「測定時点」と記載する。測定時点は一定間隔であることを想定する。例えば、25fpsのトラッキングデータを10フレーム間隔でサンプリングし、サンプリングごとに対象の位置を割り出す場合では、測定時点の間隔は0.4秒となる。
また、選手のプレーを高度に認識することができる場合には、より詳細な情報を位置データに含めることが考えられる。例えば、位置の推移により、選手の移動状況(走ってる、歩いている、止まっているなど)、移動方向などを推定し、位置データに含めることが考えられる。また、選手の向き、姿勢などを認識できるのであれば、それらを位置データに含めてよい。移動状況などのデータをさらに用いることにより、位置推定の精度が向上すると考えられる。なお、このような詳細な情報は、位置データ提供装置1から提供されてもよいし、時系列の位置データに基づき、データ処理装置3が算出してもよい。また、位置データではなく、後述の特徴データに含まれていてもよい。
特徴データ提供装置2は、複数の対象それぞれの特徴を示す特徴データをデータ処理装置3に提供する。特徴データには、選手の所属先を示す情報が少なくとも含まれていることが好ましい。例えば、チームαとチームβが試合をしている場合に、選手Aがチームαに所属していることを示す情報が特徴データに含まれていることが好ましい。なお、選手の所属先を示すデータは、所属先の名称でなく、論理値であってもよい。例えば、選手AおよびBの所属先は「0」で表されており、選手Cの所属先は「1」で表されていることが考えられる。この場合、選手Aは、チームαとチームβのいずれに所属しているかは不明であるが、選手Aにとって選手Bは味方であり、選手Aにとって選手Cは敵であることは区別することができる。このように、選手の所属先は、各選手の敵と味方を区別可能なものであればよい。
また、選手の所属先以外にも、様々な情報が特徴データに含まれることが考えられる。例えば、身長、体重、利き足(左右の足のいずれを主に利用するか)といった選手の身体的特徴が含まれてもよい。また、短距離走の公表タイム、今シーズンの得点数といった選手の能力を示す特徴が含まれていてもよい。また、パスを出すことが多い、シュートを打つことが多い、ヘディングを避ける傾向にあるといった選手のプレースタイルを示す特徴が含まれていてもよい。また、攻める方向、警告の有無、退場の有無、現試合の得点数、現試合のアシスト数、現試合の移動距離、選手の疲労度、負傷の有無など、現在の試合に関する情報が含まれていてもよい。その他、登録ポジション、年俸、直近の試合からの日数などいった情報も含まれていてもよい。なお、これらの情報は、数値で表されてよいし、カテゴリA、カテゴリB、カテゴリCといった分類項目に対応する論理値で表されていてもよい。
選手の位置が同じであっても、選手の特徴が異なれば、その動きは異なると考えられる。また、選手の位置が同じであっても、試合状況が異なれば、その動きは異なると考えられる。例えば、試合終了間際において勝っているチームがボールを保持している場合、ボールを奪われるリスクを避けるために、当該チームの選手は、ボールホルダーを追い越す動きを避ける傾向がある。したがって、位置データだけでなく特徴データを用いて、位置推定を行うことが好ましい。
また、特徴データは、選手自体の特徴に限らず、選手に関連する情報を含んでいてもよい。例えば、チームの所属リーグ、チームのフォーメーション(選手配置)といった、選手が所属するチームの特徴が含まれていてもよい。また、天候(温度、湿度、風向、風力なども含む)、ピッチコンディション(芝、土など)、試合場がホームか否か、試合場の名称といった試合環境に関する情報も含んでいてもよい。このように、様々な情報を特徴データに含ませてよい。
データ処理装置3は、少なくとも位置データに基づき、位置推定モデルを用いて、対象の関係性または位置を推定する。推定される位置の時点を「推定時点」と記載する。
入力データ生成部31は、少なくとも位置データに基づき、位置推定モデルに入力されるデータを生成する。なお、前述の通り、位置データとともに、特徴データも、当該データの生成に用いられてよい。なお、後述するが、位置推定モデルがエンコーダ‐デコーダ構造を有するモデルの場合には、位置推定モデルに入力されるデータとしては、エンコーダに入力されるデータセットと、デコーダに入力される部分データと、がある。
図2は、位置推定モデルに入力されるデータセットの一例を示す図である。図2に示すように、データセットは、対象の数×測定時点の数の行列形式で表すことができる。図2の例のデータセットの行は、対象に対応づけられている。対象は記号Ti(iは1以上の整数)で表されており、図2の例では、サッカーの22人の選手とボールを対象としているため、T1からT23までの記号が示されている。また、図2の例のデータセットの列は、測定時点に対応づけられている。測定時点は記号tm(mは1以上の整数)で表されており、図2の例では、測定時点がt1からtnまでの記号で表されている(nは1以上の整数)。
行列の各要素はベクトル形式で表され、当該ベクトルは、少なくとも、対象の位置または位置の変化量を示す要素を含む。図2の例では、対象Tiおよび測定時点tmに係るX座標およびY座標の変化量はそれぞれ、記号ΔXi−mおよびΔYi−mと表されている。例えば、対象T2および測定時点t3に係る要素には、X座標の変化量ΔX2−3と、Y座標の変化量ΔY2−3と、が示されている。対象Tiおよび測定時点tmに係るX座標およびY座標をそれぞれ、記号Xi−mおよびYi−mで表した場合、ΔXi−m+1=Xi−m+1−Xi−m、ΔYi−m+1=Yi−m+1−Yi−mが成り立つ。なお、当該ベクトルには、位置データから導出可能な値、特徴データから導出可能な値などが含まれていてもよい。
また、一つの測定時点における全対象の要素の集合を「部分データ」と記載する。部分データは、データセットの1列分のデータに相当する。例えば、測定時点tnの部分データは、図2の点線の枠で囲まれた部分のデータとなる。ゆえに、データセットは、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関する部分データを複数含む。
なお、入力データ生成部31が、データセットおよび部分データを推定部32に送信してもよいし、入力データ生成部31がデータセットを推定部32に送信して推定部32がデータセットから部分データを抽出してもよい。
推定部32は、データセットに基づいて、データセットに係る測定時点よりも後の推定時点における複数の対象のうちの少なくとも一つの位置を推定する。推定部32は、位置推定モデルをソフトウェアの一種であるプログラムモジュールとして用いる。ゆえに、図1では、推定部32内に位置推定モデルが示されている。また、前述のように位置推定モデルには関係性推定モデルが含まれる。ゆえに、図1では、位置推定モデル内に関係性推定モデルが示されている。
位置推定モデルは、様々な構造を取り得る。ここでは、位置推定モデルをエンコーダ‐デコーダ構造を有するモデルにより説明する。
位置推定モデルを説明する前に、位置推定モデルのベースになったTransformerについて説明する。図3は、ニューラルネットワークモデルの一種であるTransformerを説明する図である。図3に示されたTransformer5は、高精度な機械翻訳を可能にすることで知られている。本実施形態にて用いられる位置推定モデルは、Transformerのような連続するデータを、各データの関係性を考慮しつつ別の連続するデータへ変換するネットワークモデルに基づき設計されている。
機械翻訳では、翻訳対象の原文を単語ごとに、より正確には、形態素と呼ばれる最小単位ごとに扱うが、原文の形態素を、対応する訳文の形態素に単純に置き換えず、原文内の他の形態素を考慮しつつ、訳文の形態素を決定する。これにより、文意に沿った翻訳が可能となる。例えば、複数の意味を有する形態素が登場した場合、機械翻訳は、いずれの意味に該当するかを、当該形態素の前後に登場した形態素から推定する。すなわち、機械翻訳のモデルは、連続するデータを、各データの関係性を考慮しつつ別の連続するデータへ変換するモデルである。一方、本実施形態における位置推定処理は、位置に関する時系列データを一定時間後の時系列データへ変換する処理のために、同様のモデルを利用する。
以下、Transformerのモデルについて当該モデルが機械翻訳に用いられる場合を例にして説明する。Transformerは、エンコーダ‐デコーダ構造を有している。つまり、図3の点線にて示すように、エンコーダ51と、デコーダ52と、に分かれている。
エンコーダ51に入力データとして、原文内の一連の形態素が入力される。エンコーダ51に入力された各形態素は、Input Embedding511およびPosition Encoding512の事前処理を介して、Multi−Head Attention513に入力される。Input Embedding511は、エンコーダ51における各演算が行えるように、形態素をベクトルに変換する。Position Encoding512は、当該ベクトルに対し、対応する形態素の原文上の位置に関する情報、つまり、対応する形態素が原文の何番目にあるかといった情報を付与する。
Multi−Head Attention513は、複数のScaled Dot−Product Attentionの処理を順に実行して、処理結果を結合するものである。Scaled Dot−Product Attentionは、キーとバリューから成るメモリから、クエリによって情報を引き出すためのアテンションを利用したニューラルネットワークの一種であり、内積を用いてクエリの大きさをベクトルの次元数(深さ)に応じて小さくする。また、ここでのScaled Dot−Product Attentionは、キーおよびバリューが、クエリと同じものであるセルフアテンションである。つまり、クエリ、キー、およびバリューは、Multi−Head Attention513に入力される同一のデータである。
Multi−Head Attention513からの出力データは、Add&Norm514により、Multi−Head Attention513への入力データが加算された上で、層正規化処理によって正規化される。Add&Norm514からの出力データは、Feed Forward515に入力されて変換され、Add&Norm514による処理と同様に、Add&Norm516により正規化される。Feed Forward515は、全結合のニューラルネットワークである。なお、原文中の形態素の位置ごとに、Feed Forward515が用意されている。位置ごとに用意されたFeed Forward515のパラメータは同じでも異なっていてもよい。そして、Add&Norm516の出力データが有する位置情報に応じて、当該出力データが入力されるFeed Forward515が選出される。
Multi−Head Attention513からAdd&Norm516のまでの一連の処理は、所定数ほど繰り返される。つまり、一連の処理の回数が所定数となるまで、Add&Norm516からの出力データは、Multi−Head Attention513に入力される。そして、繰り返し終了後のAdd&Norm516の出力データは、エンコーダ51の処理結果として、デコーダ52に入力される。デコーダ52は、エンコーダ51からの出力データを用いて、エンコーダ51からの出力データとは別に入力されたデータを訳文の形態素に変換する。
デコーダ52は、再帰処理により、順に訳文の形態素を出力する。処理の最初では、例えば、原文の終了を示す「EOF」に関するデータがデコーダ52に入力され、デコーダ52は、原文の1番目の形態素に対応する訳文の形態素に関するデータを出力する。当該データが、一つの形態素を示す場合もあり得るし、該当する確率とともに、複数の形態素を示す場合もあり得る。次に、当該データから推定された訳文の1番目の形態素がデコーダ52に入力される。例えば、該当する確率とともに、複数の形態素が出力されたデータに示されていた場合は、最も高確率の形態素が入力され得る。そして、デコーダ52は、原文の2番目の形態素に対応する訳文の形態素に関するデータを出力する。このようにして、原文の各形態素が順に翻訳されていく。
なお、デコーダ52の学習時においては、再帰処理は行われずに、正解の訳文の複数の形態素が一度に入力される。そして、正解の訳文の複数の形態素がデコーダ52から出力されるように、デコーダ52内のパラメータが調整される。
デコーダ52に入力されたデータは、エンコーダ51と同様にして、Output Embedding521およびPosition Encoding522の事前処理を介して、Masked Multi−Head Attention523に入力される。Masked Multi−Head Attention523は、Multi−Head Attention513と同じくセルフアテンションである。但し、学習時においては、正解の訳文の複数の形態素が一度に入力されるため、Masked Multi−Head Attention523が推定すべき形態素の後に登場する正解の形態素にマスクをかけて処理を行う点が、Multi−Head Attention513とは異なる。
Masked Multi−Head Attention523およびAdd&Norm524の処理の後は、Multi−Head Attention525の処理が行われる。Multi−Head Attention525は、Multi−Head Attention513とは異なり、内部のScaled Dot−Product Attentionが用いるキーおよびバリューが、クエリと異なる。Multi−Head Attention525では、キーおよびバリューはエンコーダ51の出力データであり、クエリは、Add&Norm524の出力データである。
Multi−Head Attention525からの出力データは、Add&Norm526により正規化された上で、Feed Forward527に入力される。Feed Forward527は、Feed Forward515と同様である。Feed Forward527の出力は、Add&Norm528により正規化される。
デコーダ52においても、Masked Multi−Head Attention523からAdd&Norm528のまでの一連の処理は、所定数ほど繰り返される。なお、デコーダ52の繰り返し回数は、エンコーダ51の繰り返し回数と同じとは限らない。そして、繰り返し終了後のAdd&Norm528の出力は、Linear529およびSoftmax520による正規化を介して整形されて、デコーダ52にから出力される。
このように、Transformerのような機械翻訳に用いられるネットワークモデルは、一連のデータを、別の一連のデータに変換していると言え、当該変換は、オートエンコーダなどによる入力データの次元を削減して情報量を小さくするといった圧縮とは異なる。
図4は、位置推定モデルの一例を示す図である。図4の例の位置推定モデルは、Transformerをベースに作成されており、エンコーダ321と、デコーダ322と、に別れている。また、本実施形態では、さらに対象の相互作用を考慮するため、対象の配置をグラフとして扱う。すなわち、対象をノードとみなし、対象間の距離をエッジとみなした、グラフとする。そのため、エンコーダ321およびデコーダ322にそれぞれ、Dense−Graph Attention(デンスグラフアテンション)3213および3223が追加されている。なお、ここでは、全てのノードがエッジで連結しているグラフを想定したが、全てのノードがエッジで連結していないグラフを用いてもよい。その場合、Dense−Graph Attention3213および3223の代わりに、単なるGraph Attention(グラフアテンション)を用いてもよい。
エンコーダ321にデータセットが入力されると、Spatial−Embed3211およびPositional Encoding3212の事前処理を介して、Dense−Graph Attention3213に入力される。Spatial−Embed3211は、行列形式のデータセット内の各要素をデコーダ322の演算用にベクトル変換する。Positional Encoding3212は、データセット内の各要素の位置に関する情報、つまり、各要素がデータセット内の何行目の何列にあるかといった情報を付与する。
Dense−Graph Attention3213は、全結合のニューラルネットワークである。Dense−Graph Attention3213は、入力されたデータセット内の各データに対応するデータを出力する。具体的には、データセット内の各要素がDense−Graph Attention3213の入力層に入力されると、中間層において同一測定時点の各要素との演算が行われ、出力層から入力された各要素に対応する変換データが出力される。言い換えると、Dense−Graph Attention3213は、データセット内の要素ごとに、同一測定時点の各要素を変数とする演算を行う。例えば、Dense−Graph Attention3213に入力された、第iの対象の時刻tmにおける要素をPi-mにて表し、全対象の数を記号I(Iは2以上の整数)で表すとする。Dense−Graph Attention3213は、要素Pi-mに対し、要素Pi-mと同一測定時点の各要素{要素P1-m、要素P2-m、・・・、要素PI-m}を変数とする、要素Pi-mのための演算fi-m(P1-m、P2-m、・・・、PI-m)を行う。そして、Dense−Graph Attention3213は、データセット内の各要素を、対応する演算結果に置き換える。例えば、要素Pi-mのDense−Graph Attention3213による変換後の値をPi-m´にて表すとする。Pi-mは、fi-m(P1-m、P2-m、・・・、PI-m)の結果に置き換えられる。例えば、Pi-m´は次式のように表される。
αij-mはアテンションと称される係数であり、測定時点tmにおいて第iの対象にとっての第jの対象の重要度を意味する。アテンションαij-mは、例えば、活性化関数の一種であるLeakyReLUを用いて、次式で求められる。
aTは重みベクトルパラメータ、Wは重み行列を意味する。当該重み行列が、関係性推定モデルのパラメータに該当する。
上式(2)に示すように、第iの対象の時刻tmにおける要素Pi-mに対する重み行列WPi-mと、第jの対象の時刻tmにおける要素Pj-mに対する重み行列WPj-mと、時刻tmにおける第iの対象の第jの対象に対する相対的位置に対する重み行列Wdj-mと、に応じて、アテンションαij-mが変化する。すなわち、学習によって各重み行列が最適値に近づくことにより、アテンションαij-mも最適値に近づく。また、アテンションは、各対象間の相対的位置に応じて異なるため、アテンションの値は、各時点において異なる。
前述の通り、アテンションは、第iの対象にとっての第jの対象の重要度を意味し、各対象の関係性を示す指標と言える。すなわち、本実施形態においては、Dense−Graph Attention3213が関係性推定モデルである。そして、グラフアテンションによる変換を実行するためのアテンションαij-mが関係性を示す指標となる。なお、前述の通り、Dense−Graph Attention3213の代わりに単なるGraph Attention(グラフアテンション)を用いてもよいため、関係性推定モデルは、グラフアテンションであればよく、全結合型である必要はない。また、指標は、アテンションαij-mに基づいて算出されればよい。すなわち、アテンションαij-mを、関係性を示す指標としてそのまま用いてもよい。あるいは、アテンションαij-mを用いた所定の演算を行い、その演算結果を当該指標として用いてもよい。
図5は、アテンションについて説明する図である。図5では、便宜的に、要素を三つとしている。図5に示すように、三つの要素P1、P2、およびP3(ここでは、添え字の時点mは省略している)は、ネットワークグラフにおけるノードに相当する。なお、データセットの各要素は、複数の対象のいずれかに対応するため、三つの要素P1、P2、およびP3の関係性は、第1、第2、および第3の対象の関係性とも言える。また図5では、要素P1にとってのアテンションの値が示されている。なお、要素P1自身に対するアテンションも存在する。ゆえに、要素P1の要素P1に対するアテンションα11−mと、要素P1の要素P2に対するアテンションα12−mと、要素P1の要素P3に対するα13−mと、が示されている。なお、ある要素にとっての各アテンションの値の総和は、活性化関数によって1となるように調整されている。前述の通り、このアテンションの値をそのまま関係性を示す指標として用いてよい。すなわち、要素P1の要素P2に対するアテンションを、第1の対象の第2の対象に対する指標(第1の対象にとっての第2の対象の重要度)とみなしてよい。
なお、要素P1の要素P2に対するアテンションα12−mと、要素P2の要素P1に対するアテンションα21−mと、では値が異なる。ゆえに、第1の対象と第2の対象の関係性を示す指標と言われた場合、第1の対象および第2の対象のいずれを基準にしたものかは不明である。したがって、第1の対象と第2の対象の関係性を示す指標は、第1の対象の第2の対象に対する指標であってもよいし、第2の対象の第1の対象に対する指標であってもよいし、両方の組み合わせ(例えばベクトル)であってもよいし、両方を用いた演算結果(例えば平均値)であってもよい。
なお、上式は一例であり、演算式は適宜に定めてよい。例えば、上記では、活性化関数としてLeakyReLUを用いたが、他の活性化関数を用いてよい。例えば、ソフトマックス関数、シグモイド関数などを用いてもよい。また、データセット内の全要素が入力層に一度に入力されるのではなく、測定時点ごとに、同一測定時点の要素が入力されていってもよい。このようにして、データセット内の要素の値が、各対象との位置関係が考慮された値に変換される。
Multi−Head Self−Attention3214、Add&Norm3215、Feed Forward3216、およびAdd&Norm3217の処理はそれぞれ、Multi−Head Attention513、Add&Norm514、Feed Forward515、およびAdd&Norm516の処理と同じでよい。また、Multi−Head Self−Attention3214からAdd&Norm3217までの一連の処理も、所定数ほど繰り返される。
デコーダ322には、変換前のデータセットの部分データが入力される。通常は、最後の測定時点に係る部分データが入力されると想定されるが、最後の測定時点以外の測定時間に係る部分データであってもよい。デコーダ322に入力されたデータが、Spatial−Embed3221およびPosition Encoding3222の事前処理を介して、Dense−Graph Attention3223に入力される。これらのブロックの処理は、対応するエンコーダ321のブロックと同様である。
Masked Multi−Head Self−Attention3224、Add&Norm3225、Multi−Head Source−Target Attention3226、Add&Norm3227、Feed Forward3228、およびAdd&Norm3229の処理はそれぞれ、Masked Multi−Head Attention523、Add&Norm524、Multi−Head Attention525、Add&Norm526、Feed Forward527、およびAdd&Norm528と同じでよい。また、Masked Multi−Head Self−Attention3224からAdd&Norm3229までの一連の処理も、所定数ほど繰り返される。当該所定数は、エンコーダ321の所定数と同じでなくともよい。
Multi−Head Source−Target Attention3226には、Add&Norm3225の出力データが入力される。また、Multi−Head Source−Target Attention3226は、エンコーダ321の出力データ、すなわち、エンコーダ321によって変換されたデータセットを参照する。Multi−Head Source−Target Attention3226(より正確にはMulti−Head Source−Target Attention3226内のScaled Dot−Product Attention)により、エンコーダ321の出力データはキーおよびバリューとして用いられ、Add&Norm3225の出力データはクエリとして用いられる。
Add&Norm3229からの出力データは、デコーダ322に入力された部分データに係る時点の次の時点の部分データとなる。最後の測定時点の部分データがデコーダ322に入力された場合、デコーダ322からの出力データは、最後の測定時点よりも一つ先の時点、つまり最初の推定時点における部分データとなる。そして、Add&Norm3229からの出力データは、その次の推定時点における部分データを得るために、Regression3220により、再び、デコーダ322に入力される。つまり、デコーダ322の出力データが、さらに次の時点における部分データとして扱われる。このような再帰処理が繰り返されて、所望の推定時点までの部分データが出力される。なお、一つの推定時点に係る部分データのみが要求される場合は、再帰処理は行われなくともよく、Regression3220は省略されてもよい。
このようにして、位置推定モデルから推定時点における部分データを得ることができる。当該部分データが、推定時点における対象の位置または位置の変化量に関するデータに該当する。なお、位置推定モデルのエンコーダ321およびデコーダ322の内部構造が図4の例に限られるわけではない。
このように、位置推定モデルは、測定時点のデータセットから推測時点の位置を示す部分データを出力する。これに伴い、位置推定モデルのグラフアテンション(具体的にはDense−Graph Attention3213)も、測定時点におけるアテンションを算出する。ゆえに、測定時点における関係性を示す指標が算出可能である。また、推測時点におけるアテンション、すなわち、推測時点の位置を示す部分データに基づくアテンションもグラフアテンション(具体的にはDense−Graph Attention3223)により算出される。したがって、実際の位置ではなく、推測の位置に基づいたアテンションを用いて、推測時点における対象の関係性が推定されてもよい。
なお、推定部による学習の際は、エンコーダ321には位置推定時と同じくデータセットが入力されるが、デコーダ322には実際の位置が示された正解データが入力される。そして、誤差逆伝搬法などの一般的な学習方法により、デコーダ322からの出力データが実際の位置に一致するように学習が行われる。当該学習の進行とともに、位置推定モデルのネットワークにおける重み付け係数(パラメータ)が更新されていき、パラメータが適切な値に収束される。
グラフアテンションのパラメータは、位置推定モデルのパラメータでもある。ゆえに、測定時点おけるデータセットを入力データとし、推定時点におけるデータセットを正解データとする位置推定モデルの学習によって、グラフアテンションのパラメータも更新される。
なお、位置推定モデルの位置推定の精度が高い場合、グラフアテンションのアテンション、つまり、関係性を示す指標の精度が高いと考えられる。そのため、推定精度が高い、エンコーダ‐デコーダ構造のtransformerをベースとした位置推定モデルを説明した。しかし、位置推定モデルは、エンコーダ‐デコーダ構造でなくともよい。例えば、位置推定モデルとして、再帰型ニューラルネットワーク(RNN)を用いることも考えられる。
図6は、位置推定モデルの他の一例を示す図である。言い換えれば、位置推定モデルの変形例である。Spatial−embed3211、Positional Encoding3212、Dense−Graph Attention3213は、エンコーダ321が有していたものと同じであり、データセットに対する処理も同じである。なお、Dense−Graph Attention3213は、単なるグラフアテンションでもよい。変換されたデータセットは、RNN3218に入力される。
RNN3218は、データセット内の部分データから、当該部分データの次の時点の部分データを出力する。また、出力された部分データは、再帰されて、RNN3218の新たな入力となる。こうして、Transformerベースの位置推定モデルと同様に、推定時点の部分データが順に出力される。ゆえに、図6に示したような位置推定モデルでも、学習により位置推定を行うことが可能となる。したがって、図6に示したような位置推定モデルに含まれるグラフアテンションも、位置推定モデルの学習によって、アテンションを適切に更新することが可能である。
推定部32は、二つの対象に係るアテンションに基づいて、当該二つの対象の関係性を示す指標を算出する。前述の通り、第1の対象と第2の対象の関係性を示す指標は、第1の対象の第2の対象に対する指標であってもよいし、第2の対象の第1の対象に対する指標であってもよいし、両方の組み合わせ(例えばベクトル)であってもよい、両方を用いた演算結果(例えば平均値)であってもよい。推定部32は、予め定められた規定に基づいて、指標を算出する。
なお、必ずしも複数の対象全ての関係性が推定される必要はない。推定部は、各対象のその他の対象に対する指標を全て算出してもよいし、指定された二つの対象のみの指標を算出してもよい。当該指定は、図示されていない入力装置から受け付けてもよい。
なお、推定部32は、位置推定モデルの出力、すなわち、推定時点における部分データに基づいて、対象の推定時点における位置も推定してもよい。その場合、推定部32は、単に、部分データが示す位置を、推定の位置としてもよい。あるいは、複数の位置推定モデルを用いて複数の推定時点における部分データを生成し、複数の部分データに基づき、推定の位置を決定してもよい。
出力部33は、データ処理装置3の処理結果を出力装置4に出力する。出力装置4は、ディスプレイなどといったデータ処理装置3の処理結果をユーザに示す装置である。出力装置4は、特に限られるものではなく、出力部33の出力形式も出力装置4に応じて変えてよい。例えば、出力部33により、画像が出力されてもよいし、テキストや数値が含まれたファイルが出力されてもよく、それらが含まれたメールなどのデータが出力されてもよい。
なお、本説明において、「画像」という用語は、静止画および動画を包括する。すなわち、出力部により出力される画像は、静止画でも動画でもよい。
出力部33は、位置推定の結果だけでなく、位置推定に用いられた測定時点の位置なども出力してよい。例えば、測定された位置および推定された位置を、所定の背景画像(例えばピッチの平面図)上の位置に変換し、対象を示す記号を、変換した位置に所定の背景画像とともに表示することが考えられる。
出力部は、指標を加工(スケーリング)してもよい。例えば、各指標を、出力装置4を介して指標を閲覧するユーザにとって比較しやすいような値に変えることが考えられる。例えば、推定部により、第1の対象にとっての第2から第11の対象に対する各指標が算出されたとする。その場合、出力部は、各指標のうちの最小値を0(MIN)に、最大値を1(MAX)に変換し、残りの各指標の値を当該最小値および当該最大値に基づいた相対的な値に変換してもよい。すなわち、出力部は、各指標に対する正規化を行ってもよい。あるいは、出力部は、各指標の平均値が0、標準偏差が1になるように、各指標に対する標準化を行ってもよい。このように、出力部は、公知の手法を用いて、各指標の値に基づいて各指標の値を相対値に変換し、変換された相対値を指標として出力してもよい。なお、当該変換は、出力部ではなく推定部が行ってもよい。
また、出力部は、数値ではなく、グラフなどといった値の大きさを表す画像によって指標を出力してもよい。
また、出力部は、指標の算出に用いられたデータセットなども出力してもよい。また、当該出力においても、数値ではなく、該画像によってデータを表してもよい。例えば、出力部は、データセットが示す各対象の位置を所定の背景画像の相対的な位置に変換し、当該相対的な位置に、対象を示すマークを表示してもよい。
図7は、本発明の一実施形態における推定システムの出力結果の一例を示す図である。図7の上側には、サッカーのピッチを表す背景画像が示され、当該背景画像上にサッカーの各選手の位置の推移が示されている。三角形のマークが、ある時点(対象時点)における選手の位置を表す。白塗りの三角形と、黒塗りの三角形とに分かれているが、これは選手が属するチームを表す。当該マークの傍に示された数字は、選手の背番号を表す。前述の通り、これらの情報は、特徴データから得ることができる。また、白抜きの丸はボールの軌跡を表す。また、点(プロット)は、対象時点よりも前の時点における選手の位置を示す。前述の通り、出力部は、データセットが示す複数の時点の各対象の位置を、サッカーのピッチを表す背景画像上の相対的な位置に変換して、当該相対的な位置にマークなどを表示することにより、図7の上側の画像を表示することができる。
また、図7の下側には、特定の選手にとっての他の選手に対する相対的指標が棒グラフにより表されている。図7の例では、味方背番号8の選手にとっての他の選手に対する相対的指標と、味方背番号7の選手にとっての他の選手に対する相対的指標と、が示されている。当該相対的指標は、正規化されたものであり、最小値が0と、最大値が1となっている。なお、正規化はチームごとに行われている。ゆえに、味方チームにも敵チームにも、指標の値が0の選手と、指標の値が1の選手と、が存在する。
関係性は、対象の位置にも大きく影響されるため、このように、各対象の位置と、関係性を示す指標と、が並べて表示されることにより、位置と指標との関係性を理解することができる。
なお、出力部の出力は特に限られるものではなく、様々な情報を出力してよい。例えば、位置データ提供装置から位置データとともに試合中の実際の画像が提供される場合は、対象時点における実際の画像が表示されてもよい。
さらに、出力部33は、特徴データに基づき、出力する記号を変えてもよい。例えば、選手の属するチームに応じて記号の色を変えることが考えられる。また、登録ポジションごとに異なる記号を用いるといったことが考えられる。これにより、より試合の状況を認識することが可能となる。また、年俸に応じて記号の大きさを調整するといったことが考えられる。また、図示されていない入力装置を介して、ユーザの指示を受け付けて、ユーザから指定された選手の記号を変えてもよい。
次に、本実施形態の処理の流れについて説明する。図8は、本発明の一実施形態における推定システムの全体処理の概略フローチャートである。なお、本フローチャートでは、位置推定モデルは学習済みとする。
位置データ提供装置1が、試合の各時点の各選手の位置座標などを、各時点の位置データとして、データ処理装置3に送信する(S101)。一方、特徴データ提供装置2は、各時点の特徴データをデータ処理装置3に送信する(S102)。なお、特徴データの内容が試合中に変化しない場合は、全時点の特徴データとして、一つの特徴データを送信すればよい。
データ処理装置3内の入力データ生成部31は、位置データと特徴データから位置推定モデルに入力されるデータセットを生成する(S103)。推定部32は、位置推定モデルにデータセットを入力する(S104)。これにより、位置推定モデルからは、データセットに係る時点におけるアテンションと、当該時点よりも後の時点における部分データと、が算出される(S105)。推定部32が、アテンションに基づき、対象の関係性を示す指標を算出する(S106)。
なお、位置推定モデルにより推定された推測時点の位置、つまり、実際の位置ではない推測位置に基づいて、指標が算出されてもよい。その場合は、位置推定モデルに、位置推定モデルから出力された部分データが再帰的に入力されて、部分データに係る時点の関係性を示す指標と、部分データに係る時点の次の時点における部分データと、が算出される。これを繰り返して、複数の推測時点における推測の指標が算出されてもよい。
出力部33は、指標を数値または画像などで出力する(S107)。指標の値は、他の指標との相対的な値に変換されていてもよい。すなわち、相対的指標が出力されてもよい。また、推定された位置などを出力してもよい。こうして、フローは終了する。
なお、本説明におけるフローチャートは一例であり、上記の例に限られるものではない。実施形態の求められる仕様、変更などに応じて、手順の並び替え、追加、および省略が行われてもよい。
以上のように、本実施形態によれば、対象の相互作用を考慮するためグラフアテンションを加えた位置推定モデルを用いて、トラッキングデータのような複数の対象の一つ以上の測定時点の位置を示すデータから、対象の関係性を推定することができる。
前述した実施形態における、データ処理装置3などの各装置の一部又は全部は、ハードウェアで構成されていてもよいし、CPU(Central Processing Unit)、又はGPU(Graphics Processing Unit)等が実行するソフトウェア(プログラム)の情報処理で構成されてもよい。ソフトウェアの情報処理で構成される場合には、前述した実施形態における各装置の少なくとも一部の機能を実現するソフトウェアを、フレキシブルディスク、CD−ROM(Compact Disc-Read Only Memory)、又はUSB(Universal Serial Bus)メモリ等の非一時的な記憶媒体(非一時的なコンピュータ可読媒体)に収納し、コンピュータに読み込ませることにより、ソフトウェアの情報処理を実行してもよい。また、通信ネットワークを介して当該ソフトウェアがダウンロードされてもよい。さらに、ソフトウェアがASIC(Application Specific Integrated Circuit)、又はFPGA(Field Programmable Gate Array)等の回路に実装されることにより、情報処理がハードウェアにより実行されてもよい。
ソフトウェアを収納する記憶媒体の種類は限定されるものではない。記憶媒体は、磁気ディスク、又は光ディスク等の着脱可能なものに限定されず、ハードディスク、又はメモリ等の固定型の記憶媒体であってもよい。また、記憶媒体は、コンピュータ内部に備えられてもよいし、コンピュータ外部に備えられてもよい。
図9は、前述した実施形態における各装置のハードウェア構成の一例を示すブロック図である。各装置は、プロセッサ71と、主記憶装置72と、補助記憶装置73と、ネットワークインタフェース74と、デバイスインタフェース75と、を備え、これらがバス76を介して接続されたコンピュータ7として実現されてもよい。
図9のコンピュータ7は、各構成要素を一つ備えているが、同じ構成要素を複数備えていてもよい。また、図9では、1台のコンピュータ7が示されているが、ソフトウェアが複数台のコンピュータにインストールされて、当該複数台のコンピュータそれぞれがソフトウェアの同一の又は異なる一部の処理を実行してもよい。この場合、コンピュータそれぞれがネットワークインタフェース74等を介して通信して処理を実行する分散コンピューティングの形態であってもよい。つまり、前述した実施形態における各装置は、1又は複数の記憶装置に記憶された命令を1台又は複数台のコンピュータが実行することで機能を実現するシステムとして構成されてもよい。また、端末から送信された情報をクラウド上に設けられた1台又は複数台のコンピュータで処理し、この処理結果を端末に送信するような構成であってもよい。
前述した実施形態における各装置の各種演算は、1又は複数のプロセッサを用いて、又は、ネットワークを介した複数台のコンピュータを用いて、並列処理で実行されてもよい。また、各種演算が、プロセッサ内に複数ある演算コアに振り分けられて、並列処理で実行されてもよい。また、本開示の処理、手段等の一部又は全部は、ネットワークを介してコンピュータ7と通信可能なクラウド上に設けられたプロセッサ及び記憶装置の少なくとも一方により実行されてもよい。このように、前述した実施形態における各装置は、1台又は複数台のコンピュータによる並列コンピューティングの形態であってもよい。
プロセッサ71は、コンピュータの制御装置及び演算装置を含む電子回路(処理回路、Processing circuit、Processing circuitry、CPU、GPU、FPGA、又はASIC等)であってもよい。また、プロセッサ71は、専用の処理回路を含む半導体装置等であってもよい。プロセッサ71は、電子論理素子を用いた電子回路に限定されるものではなく、光論理素子を用いた光回路により実現されてもよい。また、プロセッサ71は、量子コンピューティングに基づく演算機能を含むものであってもよい。
プロセッサ71は、コンピュータ7の内部構成の各装置等から入力されたデータやソフトウェア(プログラム)に基づいて演算処理を行い、演算結果や制御信号を各装置等に出力することができる。プロセッサ71は、コンピュータ7のOS(Operating System)や、アプリケーション等を実行することにより、コンピュータ7を構成する各構成要素を制御してもよい。
前述した実施形態における各装置は、1又は複数のプロセッサ71により実現されてもよい。ここで、プロセッサ71は、1チップ上に配置された1又は複数の電子回路を指してもよいし、2つ以上のチップあるいはデバイス上に配置された1又は複数の電子回路を指してもよい。複数の電子回路を用いる場合、各電子回路は有線又は無線により通信してもよい。
主記憶装置72は、プロセッサ71が実行する命令及び各種データ等を記憶する記憶装置であり、主記憶装置72に記憶された情報がプロセッサ71により読み出される。補助記憶装置73は、主記憶装置72以外の記憶装置である。なお、これらの記憶装置は、電子情報を格納可能な任意の電子部品を意味するものとし、半導体のメモリでもよい。半導体のメモリは、揮発性メモリ、不揮発性メモリのいずれでもよい。前述した実施形態における各装置において各種データを保存するための記憶装置は、主記憶装置72又は補助記憶装置73により実現されてもよく、プロセッサ71に内蔵される内蔵メモリにより実現されてもよい。例えば、前述した実施形態におけるデータ処理装置3の図示されていない記憶部は、主記憶装置72又は補助記憶装置73に実装されてもよい。
記憶装置(メモリ)1つに対して、複数のプロセッサが接続(結合)されてもよいし、単数のプロセッサが接続されてもよい。プロセッサ1つに対して、複数の記憶装置(メモリ)が接続(結合)されてもよい。前述した実施形態における各装置が、少なくとも1つの記憶装置(メモリ)とこの少なくとも1つの記憶装置(メモリ)に接続(結合)される複数のプロセッサで構成される場合、複数のプロセッサのうち少なくとも1つのプロセッサが、少なくとも1つの記憶装置(メモリ)に接続(結合)される構成を含んでもよい。また、複数台のコンピュータに含まれる記憶装置(メモリ))とプロセッサによって、この構成が実現されてもよい。さらに、記憶装置(メモリ)がプロセッサと一体になっている構成(例えば、L1キャッシュ、L2キャッシュを含むキャッシュメモリ)を含んでもよい。
ネットワークインタフェース74は、無線又は有線により、通信ネットワーク8に接続するためのインタフェースである。ネットワークインタフェース74は、既存の通信規格に適合したものを用いればよい。ネットワークインタフェース74により、通信ネットワーク8を介して接続された外部装置9Aと情報のやり取りが行われてもよい。
外部装置9Aは、例えば、カメラ、モーションキャプチャ、出力先デバイス、外部のセンサ、又は入力元デバイス等が含まれる。外部装置9Aとして、外部の記憶装置(メモリ)、例えば、ネットワークストレージ等を備えてもよい。また、外部装置9Aは、前述した実施形態におけるデータ処理装置3などの各装置の構成要素の一部の機能を有する装置でもよい。そして、コンピュータ7は、処理結果の一部又は全部を、クラウドサービスのように通信ネットワーク8を介して受信してもよいし、コンピュータ7の外部へと送信してもよい。
デバイスインタフェース75は、外部装置9Bと直接接続するUSB等のインタフェースである。外部装置9Bは、外部記憶媒体でもよいし、記憶装置(メモリ)でもよい。データ処理装置3の図示されていない記憶部は、外部装置9Bにより実現されてもよい。
外部装置9Bは出力装置4でもよい。出力装置4は、例えば、画像を表示するための表示装置でもよいし、音声等を出力する装置等でもよい。例えば、LCD(Liquid Crystal Display)、CRT(Cathode Ray Tube)、PDP(Plasma Display Panel)、有機EL(Electro Luminescence)パネル、スピーカ、パーソナルコンピュータ、タブレット端末、又はスマートフォン等の出力先デバイス等があるが、これらに限られるものではない。また、外部装置9Bは図示されていない入力装置でもよい。入力装置は、キーボード、マウス、タッチパネル、又はマイクロフォン等のデバイスを備え、これらのデバイスにより入力された情報をコンピュータ7に与える。
本明細書(請求項を含む)において、「a、bおよびcの少なくとも1つ(一方)」又は「a、b又はcの少なくとも1つ(一方)」の表現(同様な表現を含む)は、a、b、c、a-b、a-c、b-c、又はa-b-cのいずれかを含む。また、a-a、a-b-b、a-a-b-b-c-c等のように、いずれかの要素について複数のインスタンスを含んでもよい。さらに、a-b-c-dのようにdを有する等、列挙された要素(a、b及びc)以外の他の要素を加えることも含む。
本明細書(請求項を含む)において、「データを入力として/データに基づいて/に従って/に応じて」等の表現(同様な表現を含む)は、特に断りがない場合、各種データそのものを入力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を入力として用いる場合を含む。また「データに基づいて/に従って/に応じて」何らかの結果が得られる旨が記載されている場合、当該データのみに基づいて当該結果が得られる場合を含むとともに、当該データ以外の他のデータ、要因、条件、及び/又は状態等にも影響を受けて当該結果が得られる場合をも含み得る。また、「データを出力する」旨が記載されている場合、特に断りがない場合、各種データそのものを出力として用いる場合や、各種データに何らかの処理を行ったもの(例えば、ノイズ加算したもの、正規化したもの、各種データの中間表現等)を出力とする場合も含む。
本明細書(請求項を含む)において、「接続される(connected)」及び「結合される(coupled)」との用語は、直接的な接続/結合、間接的な接続/結合、電気的(electrically)な接続/結合、通信的(communicatively)な接続/結合、機能的(operatively)な接続/結合、物理的(physically)な接続/結合等のいずれをも含む非限定的な用語として意図される。当該用語は、当該用語が用いられた文脈に応じて適宜解釈されるべきであるが、意図的に或いは当然に排除されるのではない接続/結合形態は、当該用語に含まれるものして非限定的に解釈されるべきである。
本明細書(請求項を含む)において、「AがBするよう構成される(A configured to B)」との表現は、要素Aの物理的構造が、動作Bを実行可能な構成を有するとともに、要素Aの恒常的(permanent)又は一時的(temporary)な設定(setting/configuration)が、動作Bを実際に実行するように設定(configured/set)されていることを含んでよい。例えば、要素Aが汎用プロセッサである場合、当該プロセッサが動作Bを実行可能なハードウェア構成を有するとともに、恒常的(permanent)又は一時的(temporary)なプログラム(命令)の設定により、動作Bを実際に実行するように設定(configured)されていればよい。また、要素Aが専用プロセッサ又は専用演算回路等である場合、制御用命令及びデータが実際に付属しているか否かとは無関係に、当該プロセッサの回路的構造が動作Bを実際に実行するように構築(implemented)されていればよい。
本明細書(請求項を含む)において、含有又は所有を意味する用語(例えば、「含む(comprising/including)」及び有する「(having)等)」は、当該用語の目的語により示される対象物以外の物を含有又は所有する場合を含む、open-endedな用語として意図される。これらの含有又は所有を意味する用語の目的語が数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)である場合は、当該表現は特定の数に限定されないものとして解釈されるべきである。
本明細書(請求項を含む)において、ある箇所において「1つ又は複数(one or more)」又は「少なくとも1つ(at least one)」等の表現が用いられ、他の箇所において数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)が用いられているとしても、後者の表現が「1つ」を意味することを意図しない。一般に、数量を指定しない又は単数を示唆する表現(a又はanを冠詞とする表現)は、必ずしも特定の数に限定されないものとして解釈されるべきである。
本明細書において、ある実施例の有する特定の構成について特定の効果advantage/result)が得られる旨が記載されている場合、別段の理由がない限り、当該構成を有する他の1つ又は複数の実施例についても当該効果が得られると理解されるべきである。但し当該効果の有無は、一般に種々の要因、条件、及び/又は状態等に依存し、当該構成により必ず当該効果が得られるものではないと理解されるべきである。当該効果は、種々の要因、条件、及び/又は状態等が満たされたときに実施例に記載の当該構成により得られるものに過ぎず、当該構成又は類似の構成を規定したクレームに係る発明において、当該効果が必ずしも得られるものではない。
本明細書(請求項を含む)において、「最大化(maximize)」等の用語は、グローバルな最大値を求めること、グローバルな最大値の近似値を求めること、ローカルな最大値を求めること、及びローカルな最大値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最大値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最小化(minimize)」等の用語は、グローバルな最小値を求めること、グローバルな最小値の近似値を求めること、ローカルな最小値を求めること、及びローカルな最小値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最小値の近似値を確率的又はヒューリスティックに求めることを含む。同様に、「最適化(optimize)」等の用語は、グローバルな最適値を求めること、グローバルな最適値の近似値を求めること、ローカルな最適値を求めること、及びローカルな最適値の近似値を求めることを含み、当該用語が用いられた文脈に応じて適宜解釈されるべきである。また、これら最適値の近似値を確率的又はヒューリスティックに求めることを含む。
以上、本開示の実施形態について詳述したが、本開示は上記した個々の実施形態に限定されるものではない。特許請求の範囲に規定された内容及びその均等物から導き出される本発明の概念的な思想と趣旨を逸脱しない範囲において種々の追加、変更、置き換え及び部分的削除等が可能である。例えば、前述した全ての実施形態において、説明に用いた数値は、一例として示したものであり、これらに限られるものではない。また、実施形態における各動作の順序は、一例として示したものであり、これらに限られるものではない。
1:位置データ提供装置、2:特徴データ提供装置、3:データ処理装置、31:入力データ生成部、32:推定部、321:推定部32内のエンコーダ、322:推定部32内のデコーダ、3211:エンコーダ321内のSpatial−embed、3212:エンコーダ321内のPositional Encoding、3213:エンコーダ321内のDense−Graph Attention、3214:エンコーダ321内のMulti−Head Self−Attention、3215、3217:エンコーダ321内のAdd&Norm、3216:エンコーダ321内のFeed Forward、3218:再帰型ニューラルネットワーク(RNN)、3221:デコーダ322内のSpatial−embed、3222:デコーダ322内のPositional Encoding、3223:デコーダ322内のDense−Graph Attention、3224:デコーダ322内のMasked Multi−Head Self−Attention、3225、3227、3229:デコーダ322内のAdd&Norm、3226:デコーダ322内のMulti−Head Source−Target Attention、3228:デコーダ322内のFeed Forward、3220:Regression、33:出力部、4:出力装置、5:Transformer、51:Transformerのエンコーダ、52:Transformerのデコーダ、511:Input Embedding、512:エンコーダ51内のPositional Encoding、513:エンコーダ51内のMulti−Head Attention、514、516:エンコーダ51内のAdd&Norm、515:エンコーダ51内のFeed Forward、521:Output Embedding、522:デコーダ52内のPositional Encoding、523:Masked Multi−Head Attention、524、526:デコーダ52内のAdd&Norm、525:デコーダ52内のMulti−Head Attention、527:デコーダ52内のFeed Forward、529:デコーダ52内のLinear、520:デコーダ52内のSoftmax、7:コンピュータ、71:プロセッサ、72:主記憶装置、73:補助記憶装置、74:ネットワークインタフェース、75:デバイスインタフェース、76:バス、8:通信ネットワーク、9(9A、9B):外部装置
Claims (11)
- ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの対象の関係性を示す指標を算出する算出部
を備えるデータ処理装置。 - 前記モデルは、前記測定時点におけるデータセット内の各データを変換する、ニューラルネットワークに基づくグラフアテンションを含み、
前記算出部は、前記グラフアテンションによる変換を実行するための、前記二つの対象に係るアテンションに基づいて、前記指標を算出する
請求項1に記載のデータ処理装置。 - 前記モデルは、前記測定時点におけるデータセットが入力されると、前記測定時点よりも後の推定時点におけるデータセットを出力する
請求項2に記載のデータ処理装置。 - 前記グラフアテンションのパラメータは、前記モデルのパラメータとして、前記測定時点におけるデータセットを入力データとし、前記測定時点よりも後の推定時点におけるデータセットを正解データとする学習によって更新されたものである
請求項2または3に記載のデータ処理装置。 - 前記モデルは、
前記グラフアテンションを含み、前記測定時点におけるデータセットを変換するエンコーダと、
変換されたデータセットと、前記データセット内のある測定時点に係るデータと、に基づき、前記推定時点におけるデータセットを生成するデコーダと、
を備える
請求項3または4に記載のデータ処理装置。 - 出力部をさらに備え、
前記算出部が、前記複数の対象の一つである第1の対象にとってのその他の対象との関係性を示す指標をそれぞれ算出し、
前記出力部が、算出された各指標の値に基づいて変換された各指標の相対値、または、前記相対値の大きさを表す画像、を出力する
請求項1ないし5のいずれか一項に記載のデータ処理装置。 - 前記複数の対象のそれぞれの特徴を示す指標が、前記複数の対象のそれぞれの位置または位置の変化量と対応づけて、前記データセット内に含まれる
請求項1ないし6のいずれか一項に記載のデータ処理装置。 - 前記複数の対象にチームスポーツの選手が含まれている場合において、
前記複数の対象のそれぞれの特徴を示す指標として、前記複数の対象が属するチームを示す指標が前記データセット内に含まれる
請求項7に記載のデータ処理装置。 - ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの関係性を示す指標を算出するステップ
を備えるデータ処理方法。 - ニューラルネットワークに基づくモデルを用いて、一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセットに基づき、前記複数の対象のうちの少なくとも二つの関係性を示す指標を算出するステップ
を備えるプログラム。 - 一つ以上の測定時点における複数の対象の位置および位置の変化量の少なくともいずれか1つに関するデータセット内の各データを変換する、ニューラルネットワークに基づくグラフアテンション
を備え、
前記測定時点におけるデータセットを入力データとし、前記測定時点よりも後の推定時点におけるデータセットを正解データとする学習が行われたことにより、前記測定時点におけるデータセットが入力されると、前記推定時点におけるデータセットを出力する
ニューラルネットワークに基づくモデル。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208036A JP2021081921A (ja) | 2019-11-18 | 2019-11-18 | データ処理装置、データ処理方法、プログラム、およびモデル |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019208036A JP2021081921A (ja) | 2019-11-18 | 2019-11-18 | データ処理装置、データ処理方法、プログラム、およびモデル |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2021081921A true JP2021081921A (ja) | 2021-05-27 |
Family
ID=75965223
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019208036A Pending JP2021081921A (ja) | 2019-11-18 | 2019-11-18 | データ処理装置、データ処理方法、プログラム、およびモデル |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2021081921A (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116070985A (zh) * | 2023-04-06 | 2023-05-05 | 江苏华溯大数据有限公司 | 危化品车辆装卸载过程识别方法 |
JP7411126B2 (ja) | 2022-06-15 | 2024-01-10 | 之江実験室 | 時空間的アテンションモデルに基づく多時相ct画像分類システム及び構築方法 |
-
2019
- 2019-11-18 JP JP2019208036A patent/JP2021081921A/ja active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7411126B2 (ja) | 2022-06-15 | 2024-01-10 | 之江実験室 | 時空間的アテンションモデルに基づく多時相ct画像分類システム及び構築方法 |
CN116070985A (zh) * | 2023-04-06 | 2023-05-05 | 江苏华溯大数据有限公司 | 危化品车辆装卸载过程识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP4002198A1 (en) | Posture acquisition method and device, and key point coordinate positioning model training method and device | |
JP6082101B2 (ja) | 身体動作採点装置、ダンス採点装置、カラオケ装置及びゲーム装置 | |
CN111488824A (zh) | 运动提示方法、装置、电子设备和存储介质 | |
CN110705390A (zh) | 基于lstm的形体姿态识别方法、装置及存储介质 | |
US20090066641A1 (en) | Methods and Systems for Interpretation and Processing of Data Streams | |
CN107423398A (zh) | 交互方法、装置、存储介质和计算机设备 | |
CN108182728A (zh) | 一种基于Leap Motion的在线体感三维建模方法及系统 | |
US20170147872A1 (en) | Method of identifying a movement by quantified recursive bayesian filtering | |
Zhu | Computer Vision‐Driven Evaluation System for Assisted Decision‐Making in Sports Training | |
JP2021081921A (ja) | データ処理装置、データ処理方法、プログラム、およびモデル | |
EP4040387A1 (en) | Exercise recognition method, exercise recognition program, and information processing device | |
JP2021068233A (ja) | データ処理装置、データ処理方法、プログラム、およびモデル | |
CN111681247A (zh) | 肺叶肺段分割模型训练方法和装置 | |
Hollaus et al. | Using wearable sensors and a convolutional neural network for catch detection in American football | |
CN109858402B (zh) | 一种图像检测方法、装置、终端以及存储介质 | |
JP2021135619A (ja) | 状況識別装置、状況学習装置及びプログラム | |
Atack et al. | Assessing rugby place kick performance from initial ball flight kinematics: development, validation and application of a new measure | |
Ievoli et al. | The role of passing network indicators in modeling football outcomes: an application using Bayesian hierarchical models | |
JP7409390B2 (ja) | 運動認識方法、運動認識プログラムおよび情報処理装置 | |
WO2020166356A1 (ja) | データ生成装置、データ処理装置、データ生成モデル、データ生成方法、およびプログラム | |
JP2021089483A (ja) | データ処理装置、データ処理方法、プログラム、およびモデル | |
Wang et al. | Studies and simulations on the flight trajectories of spinning table tennis ball via high-speed camera vision tracking system | |
CN111353345B (zh) | 提供训练反馈的方法、装置、系统、电子设备、存储介质 | |
Li et al. | [Retracted] Deep Learning Algorithm‐Based Target Detection and Fine Localization of Technical Features in Basketball | |
EP4261709A1 (en) | Information processing device, information processing method, and program |