JP7367775B2 - 特徴学習システム、特徴学習方法およびプログラム - Google Patents

特徴学習システム、特徴学習方法およびプログラム Download PDF

Info

Publication number
JP7367775B2
JP7367775B2 JP2021566607A JP2021566607A JP7367775B2 JP 7367775 B2 JP7367775 B2 JP 7367775B2 JP 2021566607 A JP2021566607 A JP 2021566607A JP 2021566607 A JP2021566607 A JP 2021566607A JP 7367775 B2 JP7367775 B2 JP 7367775B2
Authority
JP
Japan
Prior art keywords
feature
similarity
learning
classes
learning data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2021566607A
Other languages
English (en)
Other versions
JPWO2021130864A5 (ja
JPWO2021130864A1 (ja
Inventor
諒 川合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2021130864A1 publication Critical patent/JPWO2021130864A1/ja
Publication of JPWO2021130864A5 publication Critical patent/JPWO2021130864A5/ja
Application granted granted Critical
Publication of JP7367775B2 publication Critical patent/JP7367775B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/76Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries based on eigen-space representations, e.g. from pose or different illumination conditions; Shape manifolds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/103Static body considered as a whole, e.g. static pedestrian or occupant recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Computing Systems (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Image Analysis (AREA)

Description

本発明は、映像中の人物の行動を効率的に学習するシステム、方法およびプログラムに関する。
近年、監視カメラ等の画像をコンピュータにより処理を行うことで、画像内に映る人物がどのような行動をしているかを推定する技術が多数開発されている。しかし、人物の行動は非常に複雑かつ多様である。そのため、ある2つの行動について人間が客観的に「同じ行動である」と推定できたとしても、その行動をしている人物の違いや、その行動をする際の周囲の環境の違いなどにより、それらの行動が同じか否かをコンピュータが推定することは困難となり得る。「走っている」という行動を例に挙げると、人によって走る速さや手足の位置などが異なることは容易に想像できる。また、同じ人が走るとしても、地面の状況(競技場、砂浜など)や周囲の混み具合などの環境によって、走る速さや手足の位置などが異なることが容易に想像できる。すなわち、コンピュータで人物の行動を推定するにあたっては、非常に莫大な学習用データを用意して人や環境の違いに対応することが必要になることが多い。しかしながら、認識したい行動によっては、十分な数の学習データを用意できない可能性がある。
なお、人物の行動をコンピュータに学習させる方法として、主成分分析や深層学習の最終層を用いる方法などが考えられる。このうち、深層学習の最終層を用いる方法としては、非特許文献1や非特許文献2で述べられているような、距離学習(Metric Learning)を利用することが考えられる。距離学習は、特徴量そのものではなく、特徴量のベクトル空間上での距離に着目し、類似した行動は近くに、異なる行動は遠くに配置されるような特徴空間を構築するよう、学習を進めるものである。
しかし、一口に「異なる行動」といっても、見た目の違いはあまり大きくない可能性がある。例えば、通常の歩行動作と路上で倒れるときの動作との組み合わせと、スマートフォンなどを使用しながらの歩行動作(以下「歩きスマホ」と称する)と、単にうつむきながらの歩行動作(以下「うつむき歩行」と称する)との組み合わせを考える。両者とも「異なる行動」の組み合わせであるものの、前者は見た目が大きく異なる一方、後者は見た目の違いは大きくない。言い換えると、前者は「全く異なる行動」であり、後者は「似ているが異なる行動」であるといえる。
従来の距離学習は、「全く異なる行動」であっても、「似ているが異なる行動」であっても、単に「異なる行動」であるとして学習を進める。しかし、「似ているが異なる行動」を「異なる行動」として特徴空間上で無理やり離そうとすると、学習データに存在する、行動の違いとは無関係で些細な違い(例えば、体形の違いによるものや個人の癖など)を誇張するような変換を学習するなどして、学習モデルの識別精度に悪影響を及ぼす可能性がある。このように「異なる」の度合いに差があるデータに対応するものとして、類似性を考慮した学習の手法が提案されている。
例えば特許文献1では、企業の求人票の条件に合った求職者のレジュメを選び出すにあたって、文書中のキーワードをいくつかのトピックにまとめ、そのトピックに基づいて学習することにより、少ない学習用の文書でも高精度に対象のレジュメの抽出を行うことを可能にしている。
特開2017-134732号公報
R. Hadsell,S. Chopra and Y. LeCun, "Dimensionality reduction by learning and invariant mapping", Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition, 2006. J. Wang et al., "Learning fine-grained image similarity with deep ranking", Proceedings of the IEEE Conf. on Computer Vision and Pattern Recognition, 2014.
前述したように、「全く異なる行動」と「似ているが異なる行動」を同じ「異なる行動」として学習(例えば、距離学習)を行うことは、学習モデルの識別精度に悪影響を及ぼす可能性がある。それに対して、特許文献1におけるトピックのように、似た行動をグループにまとめ、各グループでの識別を行ったうえでグループ内の識別を行えば、行動の類似性を考慮した識別が可能になり得る。しかし、特許文献1の技術では、学習時にグループを分類する識別器とグループ内で行動を分類する識別器を分けて生成し、また識別の際にも同様に2回の識別を行う必要がある。そのため、学習や識別に従来よりも多くの時間を要する問題がある。
本発明のいくつかの態様は前述の課題に鑑みてなされたものである。本発明の目的の1つは、人物の行動の学習や識別に要する時間を低減させる技術を提供することである。
本発明の特徴学習システムは、
2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義する類似度定義手段と、
処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成する学習用データ生成手段と、
前記学習用データを用いた機械学習を実施する学習手段と、
を備える。
本発明の特徴学習方法は、
コンピュータが、
2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義し、
処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、
当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成し、
前記学習用データを用いた機械学習を実施する、
ことを含む。
本発明のプログラムは、コンピュータに、上述の特徴学習方法を実行させる。
本発明に係る第1の課題解決手段によれば、人物の行動の学習や識別に要する時間を低減させる技術が提供される。
上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
第1実施形態の特徴学習システムの構成を例示する図である。 特徴DBに格納される情報の一例を示す図である。 類似度定義部の動作例を説明するための図である。 類似度定義部の動作例を説明するための他の図である。 類似度DBに格納される情報の一例を示す図である。 類似度DBに格納される情報の一例を示す図である。 学習用DBに格納される情報の一例を示す図である。 学習用DBに格納される情報の他の一例を示す図である。 特徴学習システムのハードウエア構成を例示するブロック図である。 第1実施形態の特徴学習システムの処理の流れを示すフローチャートである。 第2実施形態の特徴学習システムの構成を例示する図である。 表示処理部が出力する画面の一例を示す図である。 表示処理部が出力する画面の他の一例を示す図である。
以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。また、図中の矢印の向きは、情報の流れを分かり易くするためのものであり、特に説明のない限り通信の方向(一方向通信/双方向通信)を限定しない。
(1. 第1実施形態)
(1.1 概要)
以下に本発明の実施形態を説明する。第1実施形態に係る特徴学習システムは、例えばセンサ情報から行動特徴を抽出したのち、学習させる行動特徴の組み合わせから類似度を判定する。行動特徴の組み合わせと類似度は、例えば、互いに関連付けた状態で学習用データベース(以下、「学習用DB」と表記)に格納される。特徴学習システムは、学習時にその類似度に基づいて学習を行う。これによれば、行動の異なる度合いに差がある行動特徴もその類似度を考慮して学習することができるため、より安定的に学習を進めることができる効果がある。
(1.2 システム構成)
以下、図1を参照しながら、第1実施形態における特徴学習システムの概要を説明する。図1は、第1実施形態の特徴学習システム100の構成を例示する図である。
図1に例示される特徴学習システム100は、特徴データベース(以下、「特徴DB」と表記)111と、類似度定義部101と、類似度データベース(以下、「類似度DB」と表記)112と、学習用データ生成部102と、学習用DB113と、学習部103とを備える。なお、これらの構成要素は、1つの装置(コンピュータ)に備えてられていてもよいし、複数の装置(コンピュータ)に分散して備えられていてもよい。以下の説明では、1つの装置(コンピュータ)が、特徴学習システム100の全構成要素を備えるものとする。
特徴DB111は、複数の行動特徴を、各々の行動特徴に対応するクラス情報と共に格納している。行動特徴は、人物の行動の特徴を示す情報であり、例えば、ある特徴空間のベクトルによって表現される。行動特徴は、例えば可視光カメラ、赤外カメラ、デプスセンサなどのセンサによって得られる情報(以下、「センサ情報」とも表記)を基に生成される。一例として、行動特徴は、行動を取っている人物が存在する領域をセンシングして得られるセンサ情報、当該センサ情報に基づいて生成される人物の骨格情報、もしくはそれらを所定の関数を用いて変換した情報などを含む。ただし、行動特徴はその他の情報を含んでもよい。なお、行動特徴の生成および取得には既存の手法を用いることができる。クラス情報は、行動特徴がどのような行動に関するものか、すなわち行動の種類が何かを表す情報である。クラス情報は、例えば、図示しない入力装置を介して、人手で入力される。その他にも、クラス情報は、各行動特徴を該当するクラスに分類するように学習された学習モデルを用いて、上記のように取得された行動特徴それぞれに付与されてもよい。
図2は、特徴DB111に格納される情報の一例を示す図である。図2の例では、特徴DB111は、行動の種類を示すクラス情報(例えば、クラス0)と、そのクラスに対応する行動特徴(その行動を取ったときの人物の各特徴点の位置座標)とを関連付けて格納している。
類似度定義部101は、2つの行動特徴のそれぞれに対応する2つクラス間の類似度を定義し、類似度DB112に格納する。なお、行動特徴の類似度は、例えば0以上1以下の数値で表される。またこの場合、値が大きいほど(数値が1に近いほど)、組を成す2つの行動特徴が類似していることを示す。類似度定義部101における類似度の定義方法としては、いくつかの方法が考えられる。大きく分けて、組になっている行動のクラスごとに類似度を定める方法と、行動特徴ごとに個別に類似度を定める方法が挙げられる。行動特徴毎に個別に類似度を定める場合、類似度定義部101は類似度を求める計算式を定義することになる。
組になっている行動のクラスごとに類似度を定める方法の例を2例挙げる。以下2例では、特徴DB111に格納されている行動特徴のクラス数はnであるとする。
第1の例として、主成分分析を用いる方法が考えられる。その具体例を数式に触れながら説明する。この場合、類似度定義部101は、例えば次のようにして、クラスの組み合わせ毎の類似度を定義することができる。なお、以下で説明する動作はあくまで一例であり、類似度定義部101の動作は以下の例に制限されない。まず、類似度定義部101は、特徴DB111に格納されている行動特徴を取り出す。そして、類似度定義部101は、特徴DB111から取り出した行動特徴の各々を、例えば機械学習によって構築された学習モデルを用いて対応するクラスに分類する。そして、類似度定義部101は、各クラス内の行動特徴について主成分分析を行い、得られた第1主成分に対する固有ベクトルを求める。ここで、クラスk(1≦k≦n)の第1主成分に対応する固有ベクトルをvとおく。そして、クラスiとクラスjとの類似度sijを、クラスiおよびクラスjそれぞれの固有ベクトルvおよびvを用いて以下のように定義する。
Figure 0007367775000001
これは、vとvとのなす角の余弦を類似度の条件を満たすように正規化した値に相当する。類似度定義部101は、[1,n]の範囲でi、jを変化させたときのすべてのsijを類似度DB112に格納する。
第2の例として、いったん従来の方法で行動特徴の学習および評価を行ったうえで、誤認識率を類似度とする方法が考えられる。この場合、類似度定義部101は、例えば次のようにして、クラスの組み合わせ毎の類似度を定義することができる。なお、以下で説明する動作はあくまで一例であり、類似度定義部101の動作は以下の例に制限されない。まず、類似度定義部101は、特徴DB111から、クラス毎に同数の行動特徴を取り出す。そして、類似度定義部101は、取り出した行動特徴をクラス内でさらに分類する。例えば、類似度定義部101は、クラス毎に取り出した行動特徴について、一部(クラス毎に同数)を評価用特徴、残りを学習用特徴とする。そして、類似度定義部101は、学習用特徴を用いて従来の方法で学習を行ったのち、得られた識別器(学習モデル)で評価用特徴の識別を行う。そして、類似度定義部101は、評価用特徴の識別結果をクラス毎に集計する。そして、類似度定義部101は、集計の結果に基づいて、クラスsに属する行動特徴をクラスtに属する行動特徴と認識した割合mstを算出する。このとき、クラスiとクラスjとの類似度sijを、クラスiに属する行動特徴をクラスjに属する行動特徴と認識した割合mijおよびクラスjに属する行動特徴をクラスiに属する行動特徴と認識した割合mjiを用いて以下のように定義する。
Figure 0007367775000002
たとえば、クラスAとクラスBがあり、クラスAに属する行動特徴をクラスBに属する行動特徴と誤る割合が0.2、クラスBに属する行動特徴をクラスAに属する行動特徴と誤る割合が0.1だったとする。この場合、類似度定義部101は、上記式(2)を用いて、クラスiとクラスjとの類似度sijを「0.15」と定義することができる。類似度定義部101は、[1,n]の範囲でi、jを変化させたときのすべてのsijを類似度DB112に格納する。
その他の例として、人為的に類似度を定めても構わない。例えば、通常の歩行動作と倒れるときの動作との類似度は0、歩きスマホとうつむき歩きとの類似度は0.25とするなどである。この場合、類似度定義部101は、例えば次のようにして、クラスの組み合わせ毎の類似度を定義することができる。なお、以下で説明する動作はあくまで一例であり、類似度定義部101の動作は以下の例に制限されない。まず、類似度定義部101は、クラスの組み合わせ毎の類似度を設定するための画面を、作業担当者が利用するディスプレイ(図示せず)に表示させる。作業担当者は、ディスプレイに表示された画面において、クラスの組み合わせ毎に設定すべき数値を入力する。ここで、類似度定義部101は、特徴DB111に格納されている行動特徴の一部または全部を、例えばクラス毎に分類してディスプレイに表示するようにしてもよい。作業担当者は、ディスプレイに表示される行動特徴のクラス毎の分類結果を、異なる2つクラスの組み合わせの類似度を決定する際の支援情報として活用できる。例えば、作業担当者は、第1のクラスに分類された行動特徴と第2のクラスに分類された行動特徴とを参照および比較しながら、当該第1および第2のクラスの組み合わせの類似度として設定すべき数値を決定することができる。類似度定義部101が上述したような分類結果をディスプレイに表示する機能を備えていない場合、作業担当者は、例えば自身の感覚に基づいて設定すべき数値を入力するようにしてもよい。そして、類似度定義部101は、画面に入力された数値を、クラスの組み合わせを示す情報と共に類似度DB112に格納する。
一方、行動特徴の組み合わせ毎に類似度を定める方法としては、次のような例が挙げられる。
第1の例として、主成分分析を用いる方法が考えられる。この場合、類似度定義部101は、例えば次のようにして、行動特徴の組み合わせ毎の類似度を定義することができる。なお、以下で説明する動作はあくまで一例であり、類似度定義部101の動作は以下の例に制限されない。まず、類似度定義部101は、特徴DB111からすべての行動特徴を取り出して主成分分析を行う。ここで、類似度定義部101は、行動特徴毎の主成分分析の結果を基に行動特徴の次元削減を行ってもよい。次元削減は従来の方法を用いることができる。そして、類似度定義部101は、各行動特徴から得られた特徴ベクトルの類似度を行動の類似度とする。具体的には、第1の行動特徴Vと第2の行動特徴Wとの間の類似度svwを、第1の行動特徴Vの特徴ベクトルvと第2の行動特徴Wの特徴ベクトルwとの差のノルム(L2ノルムを用いることが考えられるが、それ以外のノルムでもよい)を用いて、以下の式(3)のように定義することができる。
Figure 0007367775000003
また、第1の行動特徴Vと第2の行動特徴Wとの間の類似度svwを、第1の行動特徴Vの特徴ベクトルvと第2の行動特徴Wの特徴ベクトルwとがなす角の余弦を用いて、以下の式(4)のように定義することができる。
Figure 0007367775000004
この場合において、類似度DB112には、次元削減のための変換式と、上記類似度の定義式が格納される。
また、行動特徴そのものの類似性を類似度とすることも考えられる。この場合、類似度定義部101は、特徴DB111を参照せずに2つの行動特徴に基づいて2つのクラス間の類似度を求める数式を定義し、その数式を類似度DB112に格納する。以下、この方法の具体例について、図3を参照しながら説明する。図3は、類似度定義部101の動作例を説明するための図である。図3には、行動特徴の例として、身長に基づいて正規化した人物AおよびBそれぞれの骨格情報が示されている。ここでは、この2人の行動特徴を比較する例を説明する。
図3に記載される各記号の定義は以下のとおりである。図3に示すように、点A~A13および点B~B13は、それぞれ、人物Aおよび人物Bの特徴点である。なお、添字(0~13)は人物の特徴点となる部位に対応している。本図の例では、添字「0」は頭部、添字「1」は頸部、添字「2」は右肩関節、添字「3」は右肘関節、添字「4」は右手関節、添字「5」は左肩関節、添字「6」は左肘関節、添字「7」は左手関節、添字「8」は右股関節、添字「9」は右膝関節、添字「10」は右足関節、添字「11」は左股関節、添字「12」は左膝関節、添字「13」は左足関節をそれぞれ表す。これら特徴点の情報は、人物の骨格を示す情報(人物骨格情報)とも言える。このとき、各点はカメラ座標系で定義されていてもよいし、世界座標系で定義されていてもよい。本図の例において、両股関節の中点、すなわち線分A11と線分B11それぞれの中点を原点Oとする。そして、原点Oから点A~A13に向けたベクトルをa~a13、同じく点B~B13に向けたベクトルをb~b13とする。また、特徴点同士を結んだ線分のなす角としてα~α12、β~β12を図3内に示すように定義する。
以下では、行動特徴間の類似度s、または行動特徴間の距離dの算出方法を説明する。類似度定義部101は、行動特徴間の距離dを、例えば以下の式(5)に基づき類似度sに変換することができる。
Figure 0007367775000005
なお、物理的制約等から距離dの最大値Dを見込むことができる場合、類似度定義部101は、以下の式(6)に基づき類似度sを算出することもできる。
Figure 0007367775000006
ここで、類似度sまたは距離dの算出方法につき、いくつかの具体例を説明する。第1の例として、距離dを以下の式(7)のように定めることが考えられる。類似度定義部101は、以下の式(7)を用いて、各対応特徴点間の距離の合計値を、行動特徴間の距離dとして算出することができる。
Figure 0007367775000007
第2の例として、距離dを以下の式(8)のように定めてもよい。類似度定義部101は、以下の式(8)を用いて、第1の行動特徴の特徴点の重心と、第2の行動特徴の特徴点の重心との距離を、行動特徴間の距離dとして算出することができる。
Figure 0007367775000008
第3、第4の例として、距離dを以下の式(9)または式(10)のように定めてもよい。以下の式(9)および式(10)は、姿勢による行動の違いが横方向よりも高さ方向に表れやすいという事実に基づき、上述の式(7)および式(8)からそれぞれ高さ方向の情報以外を除いたものである。以下の式において、ay0~ay13およびby0~by13は、それぞれ、ベクトルa~a13およびベクトルb~b13の高さ方向の要素である。
Figure 0007367775000009
Figure 0007367775000010
第5の例として、内積からベクトルのなす角を求める手順で、類似度sを以下の式(11)のように定めてもよい。
Figure 0007367775000011
第6の例として、特徴点同士を結ぶ線分のなす角に基づき、類似度sを以下の式(12)のように定めてもよい。
Figure 0007367775000012
第7、第8、第9、第10の例として、類似度定義部101は、各人物の特徴点の動き情報に基づいて、2つの行動特徴間の距離dまたは2つの行動特徴間の類似度sを定めてもよい。この場合、類似度定義部101は、人物Aおよび人物Bそれぞれの行動特徴を経時的に取得し、個々の人物について取得された複数の行動特徴(時間的に連続する行動特徴)に基づいて、各人物の特徴点の動き情報を算出ことができる。例えば、人物Aおよび人物Bの各特徴点の位置が、図3の次の取得機会において、図3に示される状態から図4に示される状態に変化したとする。図4は、類似度定義部の動作例を説明するための他の図である。この場合において、2つの行動特徴間の距離dまたは2つの行動特徴間の類似度sを、例えば、以下の式(13)、式(14)、式(15)または式(16)のように定めてもよい。これらの式は、式(7)、式(9)、式(11)、および式(12)のそれぞれを、各人物の特徴点の動き情報を用いる式に変形したものである。
Figure 0007367775000013
Figure 0007367775000014
Figure 0007367775000015
Figure 0007367775000016
なお、実際に撮像された画像において、対象物の特徴点の一部が検出されない場合がある。例えば、対象となる人物がカメラに対して横を向いていれば、当該人物の片腕の特徴点が画像に現れないこともある。そこで第11の例として、特徴点が検出されているかどうかに基づいて2つの行動特徴間の類似度sを定めてもよい。例えば、AとBがともに検出、または未検出であれば1、片方だけが検出されていたら0となる関数h(k)を用いて、以下の式(17)のように類似度sを定めることが考えられる。
Figure 0007367775000017
そのほか、類似度定義部101は、上述の式(7)から式(17)の少なくとも2つ以上を用いて複数の類似度を算出し、それらを平均等により統合することによって、類似度DB112に格納する類似度を求めてもよい。
以上、類似度算出の例を挙げたが、ここで例示した方法以外の方法によって類似度を算出してもよい。例えば、同じクラスに属する行動であれば類似度は1とし、違うクラスに属する行動であれば特徴毎に類似度を定めるなど、行動のクラスごとに類似度を定める方法と行動特徴毎に個別に類似度を定める方法を組み合わせてもよい。
類似度DB112に格納される情報の一例につき、図5および図6を用いて説明する。図5および図6は、類似度DB112に格納される情報の一例を示す図である。図5および図6には、0~4の5つのクラスが存在する場合の情報の一例が示されている。図5の例では、類似度DB112は、クラスの組み合わせ毎に1つの類似度を格納している。また、図6の例では、類似度DB112は、同じクラスの組み合わせについては1つの類似度を格納し、また、異なるクラスの組み合わせについては類似度を求める計算式を格納している。なお、これらの図はあくまで一例であり、類似度DB112に格納される情報はこれらの図に制限されない。
学習用データ生成部102は、特徴DB111から複数個の行動特徴を、各行動特徴に関連付けられたクラス情報と共に取り出す。学習用データ生成部102は、処理対象とする複数の行動特徴を、ランダムに特徴DB111から取り出してもよいし、所定の規則に則って特徴DB111から取り出してもよい。そして、学習用データ生成部102は、特徴DB111から取り出された行動特徴の中から2つの行動特徴を任意に選択し、それら2つの行動特徴それぞれに関連付けられたクラス情報を基にクラスの組み合わせを特定する。そして、学習用データ生成部102は、特定したクラスの組み合わせに対応する類似度もしくは類似度を求める計算式を、類似度DB112から取り出す。ここで、類似度DB112から類似度を求める計算式が取り出された場合、学習用データ生成部102は、その計算式に上記選択された2つの行動特徴を代入して類似度を求める。最後に、学習用データ生成部102は、上記選択された2つの行動特徴と、類似度DB112の情報を用いて得られた類似度とを1セットの学習用データとして、学習用DB113に格納する。
学習部103は、学習用DB113から類似度と行動特徴のセットを必要数取り出し、機械学習を実施する。機械学習の手法としては、既存の手法を用いることができる。なお、本発明において、学習部103は、新たな変数として類似度を導入して機械学習を実施する。
以下、具体的な機械学習の手法をいくつか挙げ、学習用データ生成部102と学習部103の構成をより具体的に説明する。なお以下の例において、学習用データ生成部102は、距離学習に用いる学習用データを生成し、学習部103は当該学習用データを用いて距離学習を行う。
まず、非特許文献1で述べられているSiamese Networkを用いる場合の学習用データ生成部102および学習部103の動作について説明する。
Siamese Networkは、2つの学習データを1組とし、以下の式(18)に示すLossが小さくなるように学習を進めるものである。
Figure 0007367775000018
上記の式(18)において、sは学習データの組が同一のクラスのとき1、異なるクラスのとき0とする。mはマージンと呼ばれる定数であり、dは両学習データ間の距離を表す。
Siamese Networkを用いる場合、学習用データ生成部102は、まず、特徴DB111から2つの行動特徴を取り出す。そして、学習用データ生成部102は、取り出した2つの行動特徴間の類似度を前述の要領で求め、当該2つの行動特徴とそれら2つの行動特徴について得られた類似度とを1セットにまとめて学習用DB113に格納する(例:図7)。図7は、学習用DB113に格納される情報の一例を示す図である。
Siamese Networkを用いる場合、学習部103は、学習用DB113から2つの行動特徴と類似度のセット(学習用データ)を必要数取り出し、機械学習を実施する。このとき、学習部103は、上記式(18)のsに、取り出した学習用データの類似度を代入したものをLossとして学習を行う。
次に、非特許文献2で述べられているTriplet Networkを用いる場合の学習用データ生成部102および学習部103の動作について説明する。
Triplet Networkは、基準となるAnchorサンプルと、Positiveサンプル、Negativeサンプルの計3つの学習データを1組とし、以下に示すLossが小さくなるように学習を進めるものである。ここで、Positiveサンプルは、Anchorサンプルと同じクラスに属する。また、Negativeサンプルは、AnchorサンプルおよびPositiveサンプルとは異なるクラスに属する。
Figure 0007367775000019
上記の式(19)において、dはAnchorサンプルとPositiveサンプルとの距離を表す。また、dはAnchorサンプルとNegativeサンプルとの距離を表す。また、mはマージンと呼ばれる定数である。
Triplet Networkを用いる場合、学習用データ生成部102は、特徴DB111からAnchorサンプルとなる行動特徴(Aとする)と、2つの行動特徴(X、Yとする)とを取り出す。そして、学習用データ生成部102は、行動特徴A・X間、および行動特徴A・Y間の類似度を前述の要領で求める。ここで求められる両類似度の差が大きくなるように行動特徴Xと行動特徴Yが選ばれるのが望ましい。学習用データ生成部102は、例えば、行動特徴Xまたは行動特徴Yの一方を行動特徴Aと同じクラスから選択し、その他方を行動特徴Aと異なるクラスから選択することで、両類似度の差を大きくすることができる。その他にも、学習用データ生成部102は、特徴DB111からランダムに抽出した行動特徴Xおよび行動特徴Yの各々について行動特徴Aとの類似度を計算し、当該計算したA・X間の類似度とA・Y間の類似度との差に基づいて、行動特徴Aと共に処理に用いる2つの行動特徴を選択するようにしてもよい。例えば、学習用データ生成部102は、計算したA・X間の類似度とA・Y間の類似度との差が所定の閾値(例えば、0.5など)以上であれば当該行動特徴Xおよび行動特徴Yを学習用データの生成に使用する行動特徴として選択し、当該差が所定の閾値未満であれば当該行動特徴Xおよび行動特徴Yを選択しないように構成されていてもよい。更なる例として、学習用データ生成部102は、例えばA・X間の類似度とA・Y間の類似度との計算結果を含む画面をユーザに提示し、行動特徴Aと共に処理に用いる2つの行動特徴として選択するか否かを当該画面でのユーザの選択操作に基づいて決定するように構成されていてもよい。そして、学習用データ生成部102は、3つの行動特徴(A、XおよびY)と2つの類似度(A・X間の類似度およびA・Y間の類似度)とを1セットにまとめて学習用DB113に格納する(例:図8)。図8は、学習用DB113に格納される情報の他の一例を示す図である。
Triplet Networkを用いる場合、学習部103は、学習用DB113から3つの行動特徴と2つ類似度とのセット(学習用データ)を必要数取り出し、機械学習を実施する。このとき、学習部103は、Lossを以下のように定義する。
Figure 0007367775000020
ここで、s、sはそれぞれ行動特徴A・X間、行動特徴A・Y間の類似度を表す。また、d、dはそれぞれ行動特徴A・X間、行動特徴A・Y間の距離を表す。上記式(20)において、XをPositiveサンプル、YをNegativeサンプル、sを1、sを0とすると、従来のTriplet Networkと一致する点に注意されたい。
以上、機械学習の手法別に学習用データ生成部102と学習部103の詳細な構成を説明したが、これら以外の機械学習の手法を用いて独自に構成しても構わない。
(1.3 ハードウエア構成例)
図9は、特徴学習システム100のハードウエア構成を例示するブロック図である。本図の例において、特徴学習システムの構成要素(類似度定義部101、学習用データ生成部102、学習部103)は、情報処理装置1000(コンピュータ)によって実現される。情報処理装置1000は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は情報処理装置1000の各機能(類似度定義部101、学習用データ生成部102、学習部103など)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、そのプログラムモジュールに対応する各機能が実現される。
入出力インタフェース1050は、情報処理装置1000と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース1050には、例えば、マウス、キーボード、タッチパネルなどの入力装置や、ディスプレイなどの出力装置が接続され得る。
ネットワークインタフェース1060は、情報処理装置1000をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
なお、情報処理装置1000のハードウエア構成は図に例示される構成に限定されない。
(1.4 処理の流れ)
以下、第1実施形態の特徴学習システムの処理の流れを、図10を参照しながら説明する。図10は、第1実施形態の特徴学習システム100の処理の流れを示すフローチャートである。
まず、類似度定義部101は、行動特徴のクラスの組み合わせに対する類似度を定義し、類似度DB112に格納する。(ステップS101、以下単にS101と記載する)。
学習用データ生成部102は、特徴DB111から複数個の行動特徴を任意に選択して取り出す(S102)。そして、学習用データ生成部102は、取り出された2つの行動特徴に関するクラスの組み合わせに基づいて類似度DB112を参照し、当該組み合わせに対応する類似度を取得する(S103)。例えば、Siamese Networkを用いる場合、学習用データ生成部102は特徴DB111から2つの行動特徴を取り出す。そして、学習用データ生成部102は、取り出した2つの行動特徴の一方が属する第1のクラスと他方が属する第2のクラスとの組み合わせに対応する類似度を、類似度DB112に格納されている情報に基づいて取得する。例えば、取り出された2つの行動特徴の一方のクラスが「0」、他方のクラスが「1」であったとする。ここで図5に示されるような情報が類似度DB112に格納されていた場合、学習用データ生成部102は、類似度DB112から「0.05」という情報を、それらのクラスの組み合わせに対応する類似度として取得することができる。また、図6に例示されるような情報が類似度DB112に格納されていた場合、学習用データ生成部102は、類似度を求める計算式を類似度DB112から取り出す。そして、学習用データ生成部102は、取り出した計算式に対して、上述の2つの行動特徴の数値を代入することによって、類似度を取得することができる。そして、学習用データ生成部102は、S102で取り出した複数個の行動特徴とS103の処理で取得した類似度とを1セットにまとめ、学習用データとして学習用DB113に格納する(S104)。
学習用データ生成部102は、学習用DBに行動特徴と類似度のセット(学習用データ)が十分な個数格納されたかを確認する(S105)。例えば、学習用データ生成部102は、所定数或いは事前に指定された数の学習用データが、学習用DB113に格納されたか否かを判定する。十分な数の学習用データが学習用DB113に格納されていない場合(S105のNO)、学習用データ生成部102は、S102からS104の処理を繰り返す。一方、十分な数の学習用データが学習用DB113に格納されている場合(S105のYES)、学習用データ生成部102は学習用データを生成する処理を終了する。この場合、処理はステップS106に進む。
学習部103は、学習用DB113から類似度と行動特徴のセット(学習用データ)を必要数取り出し、類似度を考慮した機械学習を実施する(S106)。例えば、Siamese NetworkまたはTriplet Networkを用いる場合、学習部103は、類似度を変数として含む式(18)または式(20)によって定義されるLossの値が小さくなるように学習を進める。
(1.5 本実施形態に係る効果)
以上のように、本実施形態に係る特徴学習システム100は、人物の行動の識別に対して、識別の方法を従来と変えないまま、行動間の類似度を考慮しながら学習することを可能にする。これにより、「見た目が似ているが異なる行動」を学習することによる悪影響を抑えて安定的に学習を行うことができる。つまり、行動の差異の過剰な強調などを必要としない、安定した特徴空間を構築することができ、従来と同じ識別方法のままで、識別性能を向上させる効果が見込める。また、学習時に関しても、類似度を定める際に主成分分析や事前の学習・識別等による前処理が必要になる場合があるものの、一度類似度を定めてしまえばその後の学習ではその値を使い続けることができるし、人為的に類似度を定めるなどの前処理のない方法を採ることもできる。そのため、機械学習に用いる学習データを揃える際の労力を、従来技術よりも抑えることができる。
(2 第2実施形態)
(2.1 システム構成)
本実施形態の特徴学習システムは、以下で説明する点を除き、第1実施形態と同様の構成を有する。図11は、第2実施形態の特徴学習システム100の構成を例示する図である。
図11に示されるように、本実施形態の特徴学習システム100は表示処理部104を更に備える。表示処理部104は、学習用データ生成部102の処理結果(行動特徴間の類似度の判定結果等)を示す画面を、作業担当者用に設けられたディスプレイ(図示せず)に出力する。
(2.2 出力画面例)
以下、図を用いて、表示処理部104が出力する画面の具体例について説明する。
図12は、表示処理部104が出力する画面の一例を示す図である。図12の例において、表示処理部104は、特徴DB111から任意に選択して取り出した2つの行動特徴(行動特徴Aおよび行動特徴B)と、それらの類似度を示す情報とを含む画面を表示している。このような画面によって、学習用データを生成する作業を行う人物は、学習用データの内容を確認しつつ作業を進めることができる。
なお、表示処理部104によって出力される画面は、図12の例に制限されない。例えば、表示処理部104は、2つの行動特徴を重畳した状態で含む画面を生成して、当該画面を作業担当者に設けられたディスプレイに出力してもよい。この場合、表示処理部104は、例えば、2つの行動特徴の違いが判るように、2つの行動特徴の画像データの透過率を調整するようにしてもよい。
また、表示処理部104は、2つの行動特徴間で対応する各特徴点の類似性に基づいて、各特徴点の表示態様を変更するように構成されていてもよい。例えば、表示処理部104は、類似性が低い(または高い)特徴点の形状や色を変更するなどして、当該特徴点を他の特徴点よりも強調して表示するようにしてもよい。
また、表示処理部104は、学習用データ生成部102によって生成された学習データを学習用DB113に格納するか否かを作業担当者が選択できるような表示要素を更に含む画面を出力するように構成されていてもよい。
また、表示処理部104は、学習用DB113にすでに格納されている学習用データの分布(例えば、学習用データに含まれる類似度に基づく分布)を示す情報を更に含む画面を出力するように構成されていてもよい。
表示処理部104が出力する画面の他の一例を図13に示す。図13は、表示処理部104が出力する画面の他の一例を示す図である。図13に例示される画面によれば、作業担当者は、特徴点の表示態様によって、2つの行動特徴のどの部分が類似しているのか(あるいは類似していないのか)を容易に把握することができる。また、作業担当者は、学習用データの内容や学習用DB113における学習用データの分布といった画面上の情報を確認して、必要な学習用データを選別して学習用DB113に格納することができる。
(3 付記事項)
なお、前述の実施形態の構成は、組み合わせたり或いは一部の構成部分を入れ替えたりしてもよい。また、本発明の構成は前述の実施形態のみに限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々変更を加えてもよい。
また、本明細書内では人物行動の識別について述べているが、本発明はベクトルで表現可能な特徴であればどのような特徴の識別にも応用可能である。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義する類似度定義手段と、
処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成する学習用データ生成手段と、
前記学習用データを用いた機械学習を実施する学習手段と、
を備える特徴学習システム。
2.
前記類似度定義手段は、前記2つの特徴ベクトルに基づいて前記2つのクラス間の類似度を求める計算式を定義し、
前記学習用データ生成手段は、前記処理対象として取得した前記複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに対応する類似度を求める計算式を取得し、当該複数の特徴ベクトルを当該計算式に代入して類似度を算出する、
1.に記載の特徴学習システム。
3.
前記類似度は、前記特徴ベクトルもしくは当該特徴ベクトルを次元削減したベクトルの差のノルムもしくは当該ベクトル同士のなす角に基づき算出される、
2.に記載の特徴学習システム。
4.
前記学習手段は、距離学習を用いる、
1.から3.のいずれか1つに記載の特徴学習システム。
5.
前記類似度は、前記特徴ベクトルが属するクラス毎に主成分分析を行うことで当該クラス毎に得られる第1主成分に対応する固有ベクトルのなす角に基づき算出される、
1.から4.のいずれか1つに記載の特徴学習システム。
6.
前記類似度は、前記特徴ベクトルを用いてクラスの識別を行った際の誤認識率に基づき算出される、
1.から4.のいずれか1つに記載の特徴学習システム。
7.
前記特徴ベクトルは、人物行動の特徴であり、
前記特徴ベクトルが属するクラスは、前記人物行動の特徴が属する行動の種類である、
1.から6.のいずれか1つに記載の特徴学習システム。
8.
前記人物行動の特徴は、可視光カメラ、赤外カメラ、デプスセンサのうち1つ以上のセンサ情報を含む、
7.に記載の特徴学習システム。
9.
前記人物行動の特徴は、人物骨格情報を含み、
当該人物骨格情報は、頭部、頸部、左肘、右肘、左手、右手、腰部、左膝、右膝、左足、および右足のうち1つ以上の位置情報を少なくとも含む、
7.に記載の特徴学習システム。
10.
前記類似度は、前記人物骨格情報の対応する部位同士の距離、もしくは部位間を連結する線分同士のなす角に基づき算出される、
9.に記載の特徴学習システム。
11.
コンピュータが、
2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義し、
処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、
当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成し、
前記学習用データを用いた機械学習を実施する、
ことを含む特徴学習方法。
12.
前記コンピュータが、
前記2つの特徴ベクトルに基づいて前記2つのクラス間の類似度を求める計算式を定義し、
前記処理対象として取得した前記複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに対応する類似度を求める計算式を取得し、当該複数の特徴ベクトルを当該計算式に代入して類似度を算出する、
ことを含む11.に記載の特徴学習方法。
13.
前記類似度は、前記特徴ベクトルもしくは当該特徴ベクトルを次元削減したベクトルの差のノルムもしくは当該ベクトル同士のなす角に基づき算出される、
12.に記載の特徴学習方法。
14.
前記コンピュータが、前記機械学習として距離学習を用いる、
ことを含む11.から13.のいずれか1つに記載の特徴学習方法。
15.
前記類似度は、前記特徴ベクトルが属するクラス毎に主成分分析を行うことで当該クラス毎に得られる第1主成分に対応する固有ベクトルのなす角に基づき算出される、
11.から14.のいずれか1つに記載の特徴学習方法。
16.
前記類似度は、前記特徴ベクトルを用いてクラスの識別を行った際の誤認識率に基づき算出される、
11.から14.のいずれか1つに記載の特徴学習方法。
17.
前記特徴ベクトルは、人物行動の特徴であり、
前記特徴ベクトルが属するクラスは、前記人物行動の特徴が属する行動の種類である、
11.から16.のいずれか1つに記載の特徴学習方法。
18.
前記人物行動の特徴は、可視光カメラ、赤外カメラ、デプスセンサのうち1つ以上のセンサ情報を含む、
17.に記載の特徴学習方法。
19.
前記人物行動の特徴は、人物骨格情報を含み、
当該人物骨格情報は、頭部、頸部、左肘、右肘、左手、右手、腰部、左膝、右膝、左足、および右足のうち1つ以上の位置情報を少なくとも含む、
17.に記載の特徴学習方法。
20.
前記類似度は、前記人物骨格情報の対応する部位同士の距離、もしくは部位間を連結する線分同士のなす角に基づき算出される、
19.に記載の特徴学習方法。
21.
コンピュータに、11.から20.のいずれか1つに記載の特徴学習方法を実行させるプログラム。

Claims (13)

  1. 2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義する類似度定義手段と、
    処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成する学習用データ生成手段と、
    前記学習用データを用いた機械学習を実施する学習手段と、
    を備え
    前記類似度は、前記特徴ベクトルが属するクラス毎に主成分分析を行うことで当該クラス毎に得られる第1主成分に対応する固有ベクトルのなす角に基づき算出される、
    特徴学習システム。
  2. 前記類似度定義手段は、前記2つの特徴ベクトルに基づいて前記2つのクラス間の類似度を求める計算式を定義し、
    前記学習用データ生成手段は、前記処理対象として取得した前記複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに対応する類似度を求める計算式を取得し、当該複数の特徴ベクトルを当該計算式に代入して類似度を算出する、
    請求項1に記載の特徴学習システム。
  3. 前記類似度は、前記特徴ベクトルもしくは当該特徴ベクトルを次元削減したベクトルの差のノルムもしくは当該ベクトル同士のなす角に基づき算出される、
    請求項2に記載の特徴学習システム。
  4. 前記学習手段は、距離学習を用いる、
    請求項1から3のいずれか1項に記載の特徴学習システム。
  5. 前記類似度は、前記特徴ベクトルを用いてクラスの識別を行った際の誤認識率に基づき算出される、
    請求項1からのいずれか1項に記載の特徴学習システム。
  6. 前記特徴ベクトルは、人物行動の特徴であり、
    前記特徴ベクトルが属するクラスは、前記人物行動の特徴が属する行動の種類である、
    請求項1からのいずれか1項に記載の特徴学習システム。
  7. 前記人物行動の特徴は、可視光カメラ、赤外カメラ、デプスセンサのうち1つ以上のセンサ情報を含む、
    請求項に記載の特徴学習システム。
  8. 前記人物行動の特徴は、人物骨格情報を含み、
    当該人物骨格情報は、頭部、頸部、左肘、右肘、左手、右手、腰部、左膝、右膝、左足、および右足のうち1つ以上の位置情報を少なくとも含む、
    請求項に記載の特徴学習システム。
  9. 前記類似度は、前記人物骨格情報の対応する部位同士の距離、もしくは部位間を連結する線分同士のなす角に基づき算出される、
    請求項に記載の特徴学習システム。
  10. 2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義する類似度定義手段と、
    処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成する学習用データ生成手段と、
    前記学習用データを用いた機械学習を実施する学習手段と、
    を備え、
    前記特徴ベクトルは、人物行動の特徴であり、
    前記特徴ベクトルが属するクラスは、前記人物行動の特徴が属する行動の種類であり、
    前記人物行動の特徴は、人物骨格情報を含み、
    当該人物骨格情報は、頭部、頸部、左肘、右肘、左手、右手、腰部、左膝、右膝、左足、および右足のうち1つ以上の位置情報を少なくとも含み、
    前記類似度は、前記人物骨格情報の対応する部位同士の距離、もしくは部位間を連結する線分同士のなす角に基づき算出される、
    特徴学習システム。
  11. コンピュータが、
    2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義し、
    処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、
    当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成し、
    前記学習用データを用いた機械学習を実施する、
    ことを含み、
    前記類似度は、前記特徴ベクトルが属するクラス毎に主成分分析を行うことで当該クラス毎に得られる第1主成分に対応する固有ベクトルのなす角に基づき算出される、
    特徴学習方法。
  12. コンピュータが、
    2つの特徴ベクトルそれぞれに対応する2つのクラス間の類似度を定義し、
    処理対象として取得した複数の特徴ベクトルのそれぞれが属するクラスの組み合わせに基づいて前記類似度を取得し、
    当該複数の特徴ベクトルと当該類似度とを含む学習用データを生成し、
    前記学習用データを用いた機械学習を実施する、
    ことを含み、
    前記特徴ベクトルは、人物行動の特徴であり、
    前記特徴ベクトルが属するクラスは、前記人物行動の特徴が属する行動の種類であり、
    前記人物行動の特徴は、人物骨格情報を含み、
    当該人物骨格情報は、頭部、頸部、左肘、右肘、左手、右手、腰部、左膝、右膝、左足、および右足のうち1つ以上の位置情報を少なくとも含み、
    前記類似度は、前記人物骨格情報の対応する部位同士の距離、もしくは部位間を連結する線分同士のなす角に基づき算出される、
    特徴学習方法。
  13. コンピュータに、請求項11または12に記載の特徴学習方法を実行させるプログラム。
JP2021566607A 2019-12-24 2019-12-24 特徴学習システム、特徴学習方法およびプログラム Active JP7367775B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/050642 WO2021130864A1 (ja) 2019-12-24 2019-12-24 特徴学習システム、特徴学習方法およびプログラム

Publications (3)

Publication Number Publication Date
JPWO2021130864A1 JPWO2021130864A1 (ja) 2021-07-01
JPWO2021130864A5 JPWO2021130864A5 (ja) 2022-07-21
JP7367775B2 true JP7367775B2 (ja) 2023-10-24

Family

ID=76575800

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2021566607A Active JP7367775B2 (ja) 2019-12-24 2019-12-24 特徴学習システム、特徴学習方法およびプログラム

Country Status (3)

Country Link
US (1) US20230012026A1 (ja)
JP (1) JP7367775B2 (ja)
WO (1) WO2021130864A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011194073A (ja) 2010-03-19 2011-10-06 Konami Digital Entertainment Co Ltd ゲーム装置、ゲーム装置の制御方法、及びプログラム
JP2012174222A (ja) 2011-02-24 2012-09-10 Olympus Corp 画像認識プログラム、方法及び装置
CN111144217A (zh) 2019-11-28 2020-05-12 重庆邮电大学 一种基于人体三维关节点检测的动作评价方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011194073A (ja) 2010-03-19 2011-10-06 Konami Digital Entertainment Co Ltd ゲーム装置、ゲーム装置の制御方法、及びプログラム
JP2012174222A (ja) 2011-02-24 2012-09-10 Olympus Corp 画像認識プログラム、方法及び装置
CN111144217A (zh) 2019-11-28 2020-05-12 重庆邮电大学 一种基于人体三维关节点检测的动作评价方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
HADSELL, Raia et al.,Dimensionality Reduction by Learning an Invariant Mapping,Proceedings of the 2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition,2006年12月31日,Volume II,ISSN 1063-6919
WANG, Jiang et al.,Learning Fine-grained Image Similarity with Deep Ranking,Proceedings of the 2014 IEEE Confetence on Computer Vision and Pattern Recognition,2014年12月31日,pp.1386-1393,ISSN 1063-6919
和泉潔ほか,マルチエージェントのためのデータ解析,初版第1刷,東京: 株式会社コロナ社,2017年08月16日,pp.27-39,ISBN 978-4-339-02812-6
白石達也ほか,知覚による口形素定義に基づくコーパスベース発話顔画像合成,日本音響学会2003年春季研究発表会講演論文集 -I-,2003年03月18日,pp.399-400,ISSN 1340-3168

Also Published As

Publication number Publication date
US20230012026A1 (en) 2023-01-12
WO2021130864A1 (ja) 2021-07-01
JPWO2021130864A1 (ja) 2021-07-01

Similar Documents

Publication Publication Date Title
Zhang et al. Ergonomic posture recognition using 3D view-invariant features from single ordinary camera
KR101588254B1 (ko) 3차원 근거리 상호작용
Hasan et al. RETRACTED ARTICLE: Static hand gesture recognition using neural networks
Le et al. Human posture recognition using human skeleton provided by Kinect
Ibraheem et al. Survey on various gesture recognition technologies and techniques
JP6025845B2 (ja) オブジェクト姿勢検索装置及び方法
Nambiar et al. Context-aware person re-identification in the wild via fusion of gait and anthropometric features
Luo et al. Multi-set canonical correlation analysis for 3D abnormal gait behaviour recognition based on virtual sample generation
WO2022009301A1 (ja) 画像処理装置、画像処理方法、及びプログラム
Amrutha et al. Human Body Pose Estimation and Applications
JP7409499B2 (ja) 画像処理装置、画像処理方法、及びプログラム
JP7501622B2 (ja) 画像選択装置、画像選択方法、およびプログラム
JP7367775B2 (ja) 特徴学習システム、特徴学習方法およびプログラム
Arunnehru et al. Human pose estimation and activity classification using machine learning approach
JP7435781B2 (ja) 画像選択装置、画像選択方法、及びプログラム
Kim et al. Continuous gesture recognition using HLAC and low-dimensional space
JP7491380B2 (ja) 画像選択装置、画像選択方法、及びプログラム
JP7364077B2 (ja) 画像処理装置、画像処理方法、及びプログラム
Saykol et al. Posture labeling based gesture classification for Turkish sign language using depth values
WO2022079794A1 (ja) 画像選択装置、画像選択方法、及びプログラム
Ishrak et al. Dynamic hand gesture recognition using sequence of human joint relative angles
WO2022249278A1 (ja) 画像処理装置、画像処理方法、およびプログラム
WO2022249331A1 (ja) 画像処理装置、画像処理方法、およびプログラム
JP7375921B2 (ja) 画像分類装置、画像分類方法、およびプログラム
JP7435754B2 (ja) 画像選択装置、画像選択方法、及びプログラム

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220519

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20220519

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20230530

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230731

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230912

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230925

R151 Written notification of patent or utility model registration

Ref document number: 7367775

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151