JP7485217B2 - 分類装置、分類方法及びプログラム - Google Patents

分類装置、分類方法及びプログラム Download PDF

Info

Publication number
JP7485217B2
JP7485217B2 JP2023523666A JP2023523666A JP7485217B2 JP 7485217 B2 JP7485217 B2 JP 7485217B2 JP 2023523666 A JP2023523666 A JP 2023523666A JP 2023523666 A JP2023523666 A JP 2023523666A JP 7485217 B2 JP7485217 B2 JP 7485217B2
Authority
JP
Japan
Prior art keywords
classification
video data
unit
category
predetermined
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2023523666A
Other languages
English (en)
Other versions
JP2023546189A (ja
Inventor
アレクサンダー フィーヴァイダー
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2023546189A publication Critical patent/JP2023546189A/ja
Application granted granted Critical
Publication of JP7485217B2 publication Critical patent/JP7485217B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Image Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本開示は、分類装置、制御装置、分類方法、制御方法及び非一時的なコンピュータ可読媒体に関する。
画像分析およびビデオ分析の技術は急速に発展してきた。
例えば、特許文献1は、シーンのサムネイルを作成することができる表示制御装置を開示している。具体的には、表示制御装置は、コンテンツの各フレームがクラスタリングの対象となるクラスタリング結果を作成し、サムネイルを表示する。表示制御装置のシーン分類部612は、注目するクラスタに属するフレームを、1つ以上のフレームからなるフレーム群を有するシーンに分類する。表示制御装置のサムネイル作成部613は、シーン分類部612からのシーン情報を元に、各シーンのサムネイルを作成する。
特許第5533861号公報
近年、人間の活動を機械(例えば、コンピュータ、サポートロボットなど)で支援する技術が開発されている。このような技術では、人間が望む支援を実現するために、機械が人間の動作シーケンスを検出して分類することが重要である。
本開示の目的は、人間の支援(人間に対する支援として理解される)を提供することができる分類装置、制御装置、分類方法、制御方法および非一時的なコンピュータ可読媒体を提供することである。
第1の例示的側面では、分類装置は、所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成する生成手段と、前記生成手段によって生成された前記部分ビデオデータを分類する分類手段と、前記分類手段によって実行された分類の評価に基づいて、前記所定のアルゴリズムを修正する修正手段とを備える。
第2の例示的側面では、制御装置は、作業を含むビデオデータを認識し、それによって前記作業を決定する認識手段と、決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御するコントローラを備える。
第3の例示的側面では、分類方法は、所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、前記部分ビデオデータを分類することと、分類の評価に基づいて、前記所定のアルゴリズムを修正することとを含む。
第4の例示的側面では、制御方法は、作業を含むビデオデータを認識し、それによって前記作業を決定することと、決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御することとが含まれる。
第5の例示的側面は、所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、前記部分ビデオデータを分類することと、分類の評価に基づいて、前記所定のアルゴリズムを修正することとをコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体である。
第6の例示的側面は、作業を含むビデオデータを認識し、それによって前記作業を決定することと、決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御することとをコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体である。
本開示によれば、人間に支援を提供することができる分類装置、制御装置、分類方法、制御方法および非一時的なコンピュータ可読媒体を提供することができる。
図1は、実施の形態1にかかる分類装置のブロック図である。 図2は、実施の形態1にかかるビデオデータの分類方法を示すフローチャートである。 図3は、実施の形態2にかかる制御装置のブロック図である。 図4は、実施の形態2にかかる機械の制御方法を示すフローチャートである。 図5は、実施の形態3にかかる分類システムのブロック図である。 図6は、実施の形態3にかかる生成部のブロック図である。 図7は、実施の形態3にかかるビデオデータの強度信号の例を示すグラフである。 図8Aは、実施の形態3にかかる各サブシーケンスの人間の動作の例を示す図である。 図8Bは、実施の形態3にかかるサブシーケンスに対応する分類およびカテゴリラベルの例を示す表である。 図9は、実施の形態3にかかるビデオデータの強度信号の例を示すグラフである。 図10は、実施の形態3にかかるサブシーケンスに対応する分類およびカテゴリラベルの例を示す表である。 図11は、実施の形態3にかかるフィードバック処理の概略図である。 図12は、実施の形態3にかかる合理的な分類ソリューション数の推移例を示すグラフである。 図13は、実施の形態4にかかる意図検出システムのブロック図である。 図14は、実施の形態5にかかる意図検出システムを含む機械のブロック図である。 図15は、実施の形態5にかかる意図検出システムを含むピッキングロボットの例を示す図である。 図16Aは、実施の形態5にかかる人間のジェスチャーによって指示されたピッキングロボットの処理の一例を示す図である。 図16Bは、実施の形態5にかかる人間のジェスチャーによって指示されたピッキングロボットの処理の他の例を示す図である。 図17は、実施の形態にかかる情報処理装置の構成図である。
(実施の形態1)
本開示の実施の形態1を、図面を参照して以下に説明する。図1を参照すると、分類装置10は、生成部11、分類部12および修正部13を備える。分類装置10は、ビデオデータを扱うことができる様々なコンピュータ又は機械に適用されてもよい。例えば、分類装置10は、パーソナルコンピュータ、ビデオレコーダ、ロボット、機械、テレビ、携帯電話などとして設置されてもよい。
生成部11は、所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、その特定の時間領域においてビデオデータが抽出された部分ビデオデータを生成する。ビデオデータはある時間長を有し、特定の時間領域はある時間長内にある。ビデオデータは画像データのシーケンスであってもよい。つまり、ビデオデータは、複数のフレームを有してもよい。生成部11は、所定のアルゴリズムを使用してビデオデータの内容を分析し、特定の時間領域を設定してもよい。ビデオデータは、分類装置10内のメモリに格納されてもよいし、分類装置10の外部から生成部11に入力されてもよい。さらに、所定のアルゴリズムは、分類装置10内のメモリに格納されてもよい。
分類部12は、生成部11によって生成された部分ビデオデータを分類する。分類は、数字やテキストなどを用いて行うことができる。分類は、ジェスチャー、テレビ番組又は映画の特定のシーンなど、人間の動作に関連していてもよいが、これらに限定されるものではない。
修正部13は、分類部12によって実行される分類の評価に基づいて、所定のアルゴリズムを修正する。評価は、分類装置10内の構成要素で処理されてもよいが、分類装置10外の装置で処理されてもよい。
図2は、実施の形態1にかかる分類装置10で実行される処理の一例を示すフローチャートである。以下、分類装置10で実行される処理について説明する。
まず、生成部11が所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定する(ステップS11)。次に、生成部11は、特定の時間領域においてビデオデータが抽出された部分ビデオデータを生成する(ステップS12)。この部分ビデオデータは、1つのシーンを指し示し、人間の動作の一種を示してもよいが、これに限定されない。
次に、分類部12は、生成部11によって生成された部分ビデオデータを分類する(ステップS13)。この処理によって、分類部12は、さまざまな部分ビデオデータを複数のカテゴリに分類してもよい。
その後、修正部13は、分類部12によって実行された分類の評価に基づいて、必要に応じて所定のアルゴリズムを修正する(ステップS14)。所定のアルゴリズムを修正した結果、評価結果とともに特定の時間領域が変更されてもよい。そのため、生成部11は、部分ビデオデータを生成することで、より正確に分類すべきシーンを部分ビデオデータに含めることができる。例えば、分類が人間の動作サブシーケンスを分類することを目的としたものであれば、分類装置10は、一人の人間の動作サブシーケンスを表す部分ビデオデータの適切な時間領域を決定することができる。その結果、部分ビデオデータは正確な一人の人間の動作サブシーケンスを示すことができるため、分類部12は部分ビデオデータをより正確に分類することができる。
(実施の形態2)
本開示の実施の形態2を、図面を参照して以下に説明する。図3を参照すると、制御装置14は、認識部15とコントローラ16とを備える。制御装置14は、例えば人間を支援するロボットといった、様々なコンピュータ又は機械に搭載された装置に適用されてもよい。
認識部15は、作業(operation)を含むビデオデータを認識し、それによって作業を決定する。ビデオデータは人の動作を示してもよく、人の動作は、ある物体に対する作業であってもよい。例えば、作業は、ある物体をつかむ作業、ある物体を置く作業などを含む。このジェスチャーは、ロボットに何らかの処理を行うよう指示することができ、暗黙的かつ明示的であってもよい。ビデオデータは、実施の形態1に示すように分類され得る。
コントローラ16は、決定された作業に応じて機械の動作を決定し、決定された作業に従って機械を制御する。機械は、制御装置14を含むものであってもよいが、これに限らない。
図4は、実施の形態2にかかる制御装置14が実行する処理の一例を示すフローチャートである。以下、制御装置14によって実行される処理について説明する。
まず、認識部15は、作業を含むビデオデータを認識する(ステップS15)。前述のように、作業は人間の動作であってもよい。次に、認識部15はビデオデータを認識することで作業を決定する(ステップS16)。
そして、コントローラ16は、決定した作業に応じて機械の動作を決定する(ステップS17)。その後、コントローラ16は、決定した作業に応じて機械を制御する(ステップS18)。例えば、ユーザが作業を行った場合、認識部15はユーザが機械に何をさせたいかを理解し、コントローラ16は、ユーザやその他の入力によって指示されたように機械を制御することができる。具体的には、この処理により、制御装置14は人間の意図を認識することで機械を制御することができる。
実施の形態2にかかる制御装置14は、例えばロボットやコンピュータなどの機械におけるシステム統合機能の低減を実現することができる。
認識部15は、図1の分類部12及び/又は修正部13の機能によって実現可能である。さらに、認識部15は、図5の前処理部21、生成部22、分類部23、マッピング部24、及び/又は修正部25の機能によって実現可能とされてもよい。認識部15は、図6の計算部26、信号分析部27、決定部28、及び/又はサブシーケンス生成部29の機能によって実現可能とされてもよい。さらに、認識部15は、図13の人物対象分析部31及び/又は意図検出部32の機能によって実現可能とされてもよい。認識部15は、コンピュータビジョンの分野におけるパターン認識アルゴリズム及び/又は画像認識アルゴリズムによって実現可能とされてもよい。さらに、コントローラ16は、図14の信号発生器41及び/又はオプティマイザコントローラ42の機能によって実現可能である。図5、6、13及び14の詳細については後述する。
(実施の形態3)
本開示の実施の形態3を、図面を参照して以下に説明する。実施の形態3は、実施の形態1の具体例である。
まず、実施の形態3にかかる分類システムの構成と処理について説明する。図5を参照すると、分類システム20は、前処理部21、生成部22、分類部23、マッピング部24、修正部25、データベース(DB)を備える。分類システム20は、例えば、機械又はロボットのモジュールとして提供されてもよい。分類システム20は、感覚入力(sensory input)または(図5には示されていない)イメージングセクション、例えばビデオカメラから未加工のビデオデータを受信してもよい。イメージングセクションは、一定の間隔で人物のフレームを捉えることができる。
前処理部21は未加工のビデオデータを受信し、それを前処理(すなわち前工程処理)する。具体的には、前処理部21は未加工データに含まれる情報を削減し、分類に関する情報を含む前処理済みのビデオデータ(以下、単にビデオデータと呼称する)を生成する。これは、分類部23によって行われる。例えば、前処理部21は、不規則にサンプリングされた高解像度フレームのシーケンスを、関連情報を含むデータポイントの数が少ないフレームへ削減することができる。関連情報には、撮影される人物の特徴的な体の点が含まれてもよい。また、関連情報には、人が作業する、又は人の近くに位置する物体と人との関係が含まれてもよい。
前処理部21はビデオデータを生成部22に出力する。前処理部21は、分類システム20における前処理ソフトウェアとプロセッサとの組み合わせによって実現されてもよい。
生成部22は、前処理部21からビデオデータを受信し、特定の時間領域においてビデオデータが抽出されるサブシーケンス(部分ビデオデータ)を生成する。そのために、生成部22は、所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定する。つまり、生成部22は、ビデオを複数のサブシーケンスに分割する分割生成部として実行してもよい。
図6は、生成部22のブロック図である。生成部22は、計算部26、信号分析部27、決定部28、およびサブシーケンス生成部29を含む。生成部22における詳細な処理について説明する。
計算部26は、ビデオデータの強度信号を計算して、ビデオデータ内のサブシーケンスの長さとサブシーケンスの位置(すなわち、特定の時間領域)を決定し、強度信号は人の動作を示す。詳細には、スカラー信号と、この信号の特徴点を決定することと、によって、強度信号は、動作する人の動的な動作を集約する。計算部26は、式及び/又は規則として表されてもよい所定のアルゴリズムを使用して、強度信号を計算する。計算部26は、信号分析部27に強度信号を出力する。
信号分析部27は、強度信号を分析し、強度の候補点を特定する。候補点は、ビデオデータ中のサブシーケンスの長さ及びサブシーケンスの位置を決定するための特徴点の候補である。
決定部28は、信号分析部27で特定された候補点から特徴点を決定する。信号分析部27と決定部28は、所定のアルゴリズムに含まれるルールベースを使用して上記の処理を行う。このようにして、ビデオデータ中の特徴点が導き出される。
サブシーケンス生成部29は、決定部28によって決定される特徴点を利用して、ビデオデータ中のサブシーケンスの長さとサブシーケンスの位置を決定する。サブシーケンス生成部29は、所定のアルゴリズムに含まれる生成法則を使用して、これらの要素を決定する。サブシーケンス生成部29は、フレームのシーケンス(すなわちビデオデータ)からサブシーケンスを生成する。
要約すると、生成部22は、生成法則と適切なルールベースを含む所定のアルゴリズムに基づいて、ビデオデータのフレームのシーケンスから一連のサブシーケンスを生成することができる。各サブシーケンスのデータは、分類部23によってモーションサブシーケンスの候補として使用される。生成部22は、生成されたサブシーケンスを分類部23に出力する。
また、所定のアルゴリズムは、修正部25からのフィードバックによって修正することができることにも留意する必要がある。所定のアルゴリズムが修正された場合、計算部26が強度信号を計算する方法を変更する、及び/又は、信号分析部27及び決定部28の少なくとも1つが、特徴点を決定する方法を変更する。したがって、ビデオデータ内のサブシーケンスの長さ及び/又はサブシーケンスの位置が修正されることで、より正確に分類を得る。この修正処理について、以下で詳しく説明する。
分類部23は、サブシーケンスを受信し、サブシーケンス(部分ビデオデータ)を人間の動作として分類する。分類部23は、分類されたサブシーケンスを分類番号に割り当てる。さらに、分類部23は、マッピング部24及び/又はDBにアクセスすることによって、分類されたサブシーケンスをテキストラベルに割り当てることができる。サブシーケンスは、人間の動作のクラスタとして分類される。分類部23は、さらなる処理のため、分類番号とテキストラベルとともに、サブシーケンスを出力する。
さらに、単一のサブシーケンスを分類される候補とみなすために、分類部23は、1つ(または一時的に1つ以上)の分類ソリューションを導出してもよい。分類部23は、各サブシーケンスに関してこの処理を実行し、分類ソリューションは、分類部23のサブシーケンスを分類するために必要である。
DBはライブラリとして機能し、分類部23によって生成された分類ソリューションと分類番号を格納する。分類部23はDBにアクセスし、分類ソリューションと分類番号を使用してサブシーケンスを分類することができる。
マッピング部24は、データベース及び/又はインターネットから、文書などの分類に関連するテキスト情報を取得する。マッピング部24はさらに、特に分類システム20のユーザによって提供されるテキスト情報を取得する。マッピング部24はテキスト情報を処理し、分類に使用される語彙の説明へのマッピングを生成する。マッピング部24は、プロセッサとメモリの他に、入力部及び/又はネットワークインターフェースを含んでもよい。分類部23は、サブシーケンスとカテゴリの決定の精度を向上させるために、マッピング部24にアクセスしてマッピングを参照することができる。言い換えれば、分類部23によって行われる分類処理は、マッピング部24によって生成される言語ドメインにカテゴリをマッピングすることによって支援される。より具体的には、分類部23は、人間が理解できるテキストラベルをサブシーケンスに割り当て、これまで分類番号でラベル付けされていた既に識別済のカテゴリに対して、可能な限り正確に動作パターンを記述する。また、分類部23が隣接するサブシーケンスのテキストラベルを使用してカテゴリを決定できない場合にも、これは役立つ。テキスト情報を使用する主な目的は、分類の能力を強化することと、カテゴライザの誤った結果を追加チューニングまたは修正する必要がある場合にシステムの推論を理解することである。
修正部25は、特定の分類ソリューションの評価値を決定する。分類ソリューションの評価値は、対応する分類が、分類後の後続の処理ステップにどの程度適しているかを示してもよい。後続の処理ステップの例として、意図検出がある。評価値は、対応するサブシーケンスによって示される人間の動作の後のアクションまたはイベントを予測するために、対応する分類がどれだけ適しているかを示してもよい。
得られた分類ソリューションの評価値は、1または複数の指標によって判断できる。指標の第1の例は、同一のカテゴリに属していることがすでに知られている要素を、分類ソリューション(すなわち、分類部23)が、同一のカテゴリの一部としてどの程度良く分類するかである。指標の第2の例は、定義された問題に対する所定のカテゴリ数からの偏差を記述する指標である。つまり、この指標は、既知であると仮定された最適なカテゴリ数からの偏差が、定義された問題に対してどの程度であるかを示す。たとえば、得られた分類ソリューションが不適切になるほど、この指標は大きくなる。指標の第3の例は、システム全体が分類システム20を含む一方、システム全体が分類ソリューションを使用して全体的なタスクをどの程度達成するかを記述する指標である。これは最も重要な指標の1つであり、分類を改善するために使用すべきであれば、最も困難な指標である。システム全体の例については後述する。
修正部25は、これらの指標のうち少なくとも1つを用いて分類を評価する。ただし、指標はこれらの例に限定されるものではない。指標は、分類ソリューションの正しさ又は適切さを定義するための様々なパラメータを有してもよい。現在の分類ソリューションの評価値が指標に関して所定の基準を満たさない場合(たとえば、現在の分類ソリューションが検討対象のタスクに対して十分ではない場合)、修正部25は生成部22に所定のアルゴリズムを変更するよう、適切な指示(フィードバック)を与える。具体的には、もし修正部25が分類の評価を考慮して、あるカテゴリが適切でないと判断した場合、修正部25は所定のアルゴリズムのうちそのカテゴリに対応する部分が修正されるべきことを指示する指示を送信する。指示に基づいて所定のアルゴリズムが修正され、計算部26による計算方法、信号分析部27による分析方法、決定部28による決定方法、及びサブシーケンス生成部29の生成方法のうち少なくとも1つに修正が加えられる。その結果、ビデオデータ中のサブシーケンスの長さ及びサブシーケンスの位置を変更することができる。
次に図7~8Bを参照して、具体的な人の動作の例と分類システム20が実行する処理について説明する。ビデオデータの強度信号の例を図7に示す。フレーム番号0からkが時間軸として図7に示され、フレームの特徴点はkとkの2つがある。図7に示すように、特徴点では信号の強度は強度dに関して変曲点、特に極小値を有する。
分類システム20において、計算部26は図7のグラフを導出する。信号分析部27はこのグラフを分析し、2つの特徴点kとkを求め、この2つの点を候補点とする。そして、決定部28は、2つの点kとkを特徴点とする。サブシーケンス生成部29は、決定された2つの点kとkを利用して、ビデオデータ中のサブシーケンスの長さとサブシーケンスの位置を決定する。この例では、サブシーケンス生成部29は、サブシーケンス(1)、(2)及び(3)を生成する。フレーム番号0からkまでのサブシーケンスをサブシーケンス(1)、フレーム番号kからkまでのサブシーケンスをサブシーケンス(2)、フレーム番号kからkまでのサブシーケンスをサブシーケンス(3)と設定する。上記の通り、サブシーケンスは2つの特徴点kとkによって定義される。
図8Aは、各サブシーケンスの人間の動作の例を示す。図8Aに示されるように、サブシーケンス(1)は人Pが「左腕を上げる」こと、サブシーケンス(2)は人Pが物体Oについて「物体を渡す」こと、サブシーケンス(3)は人Pが「リラックス」することを示している。これらの人間の動作の特徴的な体の点は、図7の強度信号で表される。
図8Bは、サブシーケンス(1)から(3)に対応するカテゴリとカテゴリラベルの例を示す。サブシーケンス(1)のカテゴリは「mp31」、サブシーケンス(2)のカテゴリは「mp76」、サブシーケンス()のカテゴリは「mp21」である。分類部23はDBを使用してこれらのカテゴリ番号を設定する。さらに、サブシーケンス(1)のカテゴリラベルは「左腕を上げる」、サブシーケンス(2)のカテゴリは「物体を渡す」、サブシーケンス()のカテゴリは「リラックス」である。分類部23は、マッピング部24によって生成されたテキスト情報を使用してこれらのカテゴリラベルを設定する。このように、分類システム20はサブシーケンスのラベルを定義する。
次に、図9及び10を参照して、分類システム20がサブシーケンスを分類しない例を説明する。図9のグラフは図7のグラフと同じである。しかしながら、特徴点を見つける手がかりとなる情報が不足しているため、分類システム20は偽点k’とk’を特徴点と誤判断している。その結果、サブシーケンス生成部29はサブシーケンス(1)’、(2)’及び(3)’を生成する。フレーム番号0からk’までのサブシーケンスをサブシーケンス(1)’、フレーム番号k’からk’までのサブシーケンスをサブシーケンス(2)’、フレーム番号k’からkまでのサブシーケンスをサブシーケンス(3)’と設定する。
図10は、サブシーケンス(1)’から(3)’に対応するカテゴリとカテゴリラベルの例を示す。分類部23は、サブシーケンス(1)'と(3)'のカテゴリとカテゴリラベルを正しく決定できるが、サブシーケンス(2)'のカテゴリを決定できないため、サブシーケンス(2)'は分類部23によって分類できない。この場合、テキスト推論は分類処理を支援し、この手段なしでは分類できない場合でも分類を可能にする。
図11は、この状況での修正部25によるフィードバック処理の概略図である。修正部25は、指標を使用して分類結果を評価し、生成部22にフィードバックを送信する。フィードバックは、特徴点の決定に関して、所定のアルゴリズムを修正する必要があることを指示する。フィードバックを受けて、生成部22は、特徴点再評価アルゴリズムを使用し、再評価の結果として特徴点の決定を調整する。これにより、生成部22は、図9に示すように、点k’と点k’を元の点から移動させ、図7の正しい位置に点を設定する。
例えば、修正部25は、特徴1と2のペアを含む特徴空間を処理し、データ点を異なる方法で複数のグループに分類してもよい。ただし、特徴空間は2次元に限定されないことに留意する必要がある。
図12は、合理的な分類ソリューションの数の推移例を示す。分類部23は、どのような分類ソリューションが合理的な分類ソリューションであるかを決定する。図12の開始時点では、合理的な分類ソリューションの数は一つである。その数は、時間の経過とともに順番に2, 3, 2, 1, 2, 1となる。要約すると、数は一時的に複数になることもあるが、時間経過とともに1に収束する。分類後の処理を行うためには、分類の際にあいまいさを減らすべきであるため、分類部23は、分類部23で使用される分類ソリューションの数を1に制限することが望ましい。
人の動作を検出するため、関連技術では、人の動作のカテゴリの決定が行われることがある。しかしながら、(例えば、特定のタスクを実行する)人の動作を示すムービーのフレームを分析して得られた前処理データを利用して、自動的にカテゴリを決定することに取り組む場合、以下のような問題が生じることがある。
第1の問題は、最小限の情報を使用するか、または情報を全く使用しないことによって、サブシーケンスを記述する意味のあるカテゴリを導出することの問題である。カテゴリは、得られた分類が技術システムの全体的な目的に有用であることを意味する実用的な観点から意味をなすべきである。この問題は、サブシーケンスの正しい長さが正確に知られていても発生する。分類ソリューションの評価値を記述する有効な基準を確立する必要がある。
第2の問題は、カテゴリにマッピングできる有効なサブシーケンスを見つけ、時間の経過とともにサブシーケンスの決定を改善することの問題である。この問題は、情報がないか情報量が少ない場合、前処理されたデータのみを使用して単一のサブシーケンスの長さを導出することが困難であるために発生する。さらに、サブシーケンスを生成する指示がない。
第3の問題は、サブシーケンスやカテゴリの決定を改善するために、データベース、インターネットから得られる、または特にユーザによって提供される文書などのテキスト情報を使用することの問題である。
分類システム20は、前述の問題を解決することができる。第1の問題は、分類部23によって行われた分類を評価する指標を設定することによって解決される。関連技術では、入手できる関連情報の量が少なく、分類システムが(意図検出システムのような)さらなる処理システムへの入力を提供する場合、その影響が直接推定できない、すなわち、ある動作パターン分類システムで局所的な意図をどの程度良好に検出できるかに関して、評価には固有の困難さがある。しかしながら、指標の拡張セットの導入により、分類システム20は、分類の特性を評価することができる。
さらに、分類の評価により、分類システム20は、必要に応じて、所定のアルゴリズムを修正して、サブシーケンスの生成方法(候補点の選択方法)を変更することができる。つまり、得られた分類ソリューションの評価値に基づいて、例えば、強度信号の計算方法や特徴点の決定方法(例えばルールベースによる)を変更することによって、サブシーケンス長の計算が適合されてもよい。したがって、分類部23による修正に応じて分類ソリューションが修正され、修正された分類ソリューションがDBに格納される。
第2の問題は、所定の適合性のあるアルゴリズムに基づいてサブシーケンスの関連する長さを決定するために、ある適合性が高い方法で強度信号を計算し、この信号の特徴点を導出することによって解決される。
第3の問題は、DBとマッピング部24を分類システム20に導入することによって解決される。これらのユニットは、分類システム20が適切な数とテキスト情報を使用してカテゴリとカテゴリラベルを生成することを可能にする。特に、マッピング部24は、データベース及び/又はインターネットから人間の動作に関する情報を取得することによってマッピング情報を生成することができ、分類部23は、マッピング情報を利用して分類の精度を向上させることができる。
カテゴリは、分類システム20によって自動的に学習されることができ、新しい動作サブシーケンスが実行された場合でも、データの必要性が高くない状態で、新しい動作の新しいカテゴリが決定可能である。
上記で説明したように、分類システム20は、分類部23によって実行された分類の評価に基づいて、所定のアルゴリズムを修正することができる。したがって、分類システム20は、サブシーケンスをより正確に分類することができる。
さらに、前処理部21は未加工のビデオデータに含まれる情報を削減し、分類に関連する情報を含むビデオデータを生成することができる。これにより、分類に関連する処理を少ない処理時間で行うことができ、分類の精度を高めることができる。
さらに、修正部25は、同一のカテゴリに属することがすでに知られている要素を、分類手段が同一のカテゴリの一部としてどの程度良く分類しているかを示す指標、定義された問題に対する既定のカテゴリ数からの偏差を示す指標、システムが全体的なタスクをどの程度達成しているかを示す指標のうち、少なくとも1つの指標を使用して分類を評価することができる。このため、分類システム20は、実用的に分類を評価することができる。ここで、システムには分類装置が含まれている。
さらに、分類部23は、サブシーケンス(部分ビデオデータ)を人間の動作の一種として分類することができる。その結果、分類システム20は、人間の動作を検出するために使用することができる。
特に、生成部22は、ビデオデータの強度信号を計算して、特定の時間領域を決定することができる。ここで、強度信号は人の動作を示す。人の動作の特徴を単純な強度信号として定義できるため、結果、生成部22は、人の動作の特徴を容易に把握することができる。
さらに、分類部23は、分類されたサブシーケンス(部分ビデオデータ)をテキストラベルに割り当てることができる。このため、分類システム20のユーザは、分類結果を容易に認識することができる。
(実施の形態4)
本開示の実施の形態4を、図面を参照して以下に説明する。
図13は、意図検出システム30を示す。意図検出システム30は、分類システム20、人物対象分析部31及び意図検出部32のユニットを備える。要約すると、意図検出システム30は、意図検出推論モジュールと結合されたシステムである。前処理部21から修正部25までのユニットの処理は、実施の形態3で説明したものと同じであるため、その説明は省略する。実施の形態2における認識部15の一例には、人物対象分析部31と意図検出部32が対応する。
人物対象分析部31は、前処理部21が入力したビデオデータと、生成部22が生成したサブシーケンスを分析し、サブシーケンス内のさまざまな種類の人間の部分を検出する。検出される人間の部分は、例えば、頭部、右腕または左腕、右足または左足などである。好ましくは、人物対象分析部31は指示を示すジェスチャーに用いられる部分を検出できる。人物対象分析部31は、検出結果を分類部23に出力する。分類部23は、検出結果を利用してサブシーケンスを分類し、分類の精度を向上させる。
意図検出部32は、分類部23からの分類結果を受信し、これを利用して、ビデオデータ内の人物の意図を検出する。本開示において、「意図」は、ある対象に対する作業を表すことができる。作業には、例えば、ある対象をつかむ作業、ある対象を置く作業などがある。意図検出システム30が工場内に設置されている場合、意図検出部32は、作業者の意図(例えば、「ある対象を掴みたいという気持ちを表す」、「注意を向けられたいという気持ちを表す」、「対象を置きたいという気持ちを表す」など。)を検出することができる。さらに、「意図」は、機械の動作の指示を表すこともできる。機械の動作は、例えば、移動、機械の一部の操作、またはこれらの操作の停止を含むことができる。意図検出部32は、意図検出の結果を出力する。出力の例としては、分析対象のサブシーケンスに関する推定対象者の活動及び/又はジェスチャーがある。さらに、意図検出部32は、人物の次の行動及び/又はジェスチャーを予測し、予測を出力してもよい。
この場合、意図検出部32は、分類されたサブシーケンス(部分ビデオデータ)を使用して、人間の意図を検出することができる。これにより、意図検出システム30は、産業分野及び/又は医療分野など、様々な分野における人間活動の支援システムに適用することができる。
(実施の形態5)
本開示の実施の形態5を、図面を参照して以下に説明する。この実施の形態は、意図検出システム30の特定用途を説明する。
図14は意図検出システム30を含む機械を示す。具体的には、機械40は意図検出システム30、センサS、信号発生器41及びオプティマイザコントローラ42を備える。意図検出システム30の処理は実施の形態4で説明したものと同じであるため、その説明を省略する。機械40の一例はロボットである。
センサSは未加工のビデオデータを取得し、意図検出システム30内の前処理部21にそれを入力する。例えば、センサSはビデオセンサであってもよい。
信号発生器41は、意図検出システム30内の意図検出部32の出力を受信し、意図検出部32の出力も考慮して、機械40の動作を制御する制御信号を生成する。例えば、信号発生器41は、意図検出部32が決定した作業に応じて機械40の動作を決定し、決定した作業に応じて機械40を制御することができる。信号発生器41は、図14に示すように、機械の他のセンサ及び/又は部分から他の入力信号を受信し、また、他の入力信号を考慮して制御信号を発生してもよい。信号発生器41は、機械40のコントローラとして機能する。例えば、機械が地上を移動できるのであれば、信号発生器41は軌道プランナーとして機能し、計画された軌道とともに移動の制御信号を生成することができる。さらに、信号発生器41は、機械40の部分から信号を受信し、基準信号を生成してその部分を制御することができる。信号発生器41は、生成した信号をオプティマイザコントローラ42に出力する。オプティマイザコントローラ42は、制御信号を受信し、オプティマイザとして制御信号を処理する。これが、機械40がその動作を計画し、制御する方法である。
図15は、ピッキングロボットである機械40の特定用途を示す。ピッキングロボットRは、意図検出システム30をその内部に備え、また、吸い込み機構AM及び収納スペースを備える。吸い込み機構AMは品物を吸い込み、吸い込まれた品物はピッキングロボットRの内部制御に対応した収納スペースに収納される。
図16A及び16Bは人間のジェスチャーで指示されたピッキングロボットRの処理例を示す。図16A及び16Bは、倉庫又は工場で作業者WがピッキングロボットRに指示及び命令を出したい状況を示している。ピッキングロボットRは作業者Wをモニターし、ビデオデータを取得して作業者のジェスチャーを認識することができる。実施の形態3及び4で説明した処理を経て、ピッキングロボットRは作業者のジェスチャーを分類し、その分類に基づいて作業者の意図を検出する。意図の検出結果を利用して、ピッキングロボットRは所望の作業を行うことができる。ピッキングロボットRは、検出された作業者Wのジェスチャー(すなわち指示)と、ピッキングロボットRが行う作業との対応関係を記憶してもよい。ジェスチャーを検出して、ピッキングロボットRは、記憶された対応関係に基づく所望の作業を行ってもよい。
例えば、図16Aでは、作業者Wが右腕を棚Sに向かって伸ばしている。また、図16Aは、棚Sに多くの異なる商品があることを示している。作業者Wのジェスチャー前では、ピッキングロボットRは棚Sの商品を回収する作業をしない。しかしながら、作業者Wがジェスチャーを行うと、ピッキングロボットRは作業者Wのこのジェスチャーを分類し、このジェスチャーが棚Sの商品を吸い込む処理に該当すると決定する。そして、ピッキングロボットRの信号発生器41が制御信号を生成してピッキングロボットRを棚Sの近くの位置に移動させ、吸い込み機構AMに棚Sの商品を吸い込ませて回収する。
もう一つの例として、図16Bでは、作業者Wが左腕を図16Bの右側から左側に動かしている。ピッキングロボットRは、作業者Wのこのジェスチャーを分類し、このジェスチャーが作業を停止して棚Sから離れる処理に該当すると決定する。そして、ピッキングロボットR内の信号発生器41がこれらの動作を行うための制御信号を生成する。
関連技術では、人にマーカーを取り付けるのが煩わしい場合があっても、機械への指示にマーカーがしばしば必要となる。しかしながら、本開示は様々な機械に適用可能な高度な機械学習システムを開示し、「マーカーなしのソリューション」を提供することができる。したがって、マーカーを人に取り付ける負担を回避することができる。
また、信号発生器41(コントローラ)は、意図検出部32によって検出された人間の意図に基づいて機械40の動作を制御する。そのため、機械40は作業者の作業を支援することができる。
なお、本発明は、上記の実施形態に限定されるものではなく、本発明の精神を逸脱することなく、適宜変更されてもよい。例えば、修正部25の代わりに、分類システム20内の別のユニット、または分類システム20外部の装置が、分類部23によって行われた分類を評価してもよい。
異なる人間の動作は、それらの動作の時間が重なり合ってなされ得るため、生成される複数の部分ビデオデータ(またはサブシーケンス)は、実施の形態1及び2において、時間に関して互いに重なっていてもよい。
図8Aは、人物Pの「左腕を上げる」、「物体を渡す」及び「リラックスする」の例を示す。しかしながら、人間の動作の例はこれらに限らないことは言うまでもない。例えば、「物体の近くで左腕を上げる」、「右腕を上げる」、「人差し指で指す」、「手で特別なジェスチャーをする」などが検出対象となる人間の動作であってもよい。
本開示は、データフレームの主要な情報が、空間内で位置が変化する2又は3次元空間内の、何らかの形で関連する特定の少数の点に要約され、これらの点の画像が特定の時間ステップで与えられる用途に適用されることができる。
本開示は、規則的または不規則にサンプリングされたムービーフレームのシーケンスから計算される点データから得られる動作パターンを分類することができる、様々な目的のための分類システム、方法およびプログラムに関する。この技術システムは、行為をする人の動作パターンを決定し、それに応じて動作パターンを分類するのに役立つ。これは、正しく分類され、ラベル付けされた動作サブシーケンスが、例えば人間への支援の計画など、さらなる処理のために重要な役割を果たす意図検出システムに適用されてもよい。具体的には、工場、ショッピングモール、倉庫、食堂のキッチン、又は建設現場など、さまざまな状況で使用することができる。さらに、スポーツに関する活動又は他の活動における人間の動作を分析するために使用することができる。また、非常に一般的な動的パターンの特徴付けにも適用できる。ただし、本開示の用途は、必ずしもこの分野に限定されない。
次に、上記の複数の実施形態で説明された装置のハード構成例について、図17を参照して以下で説明する。
図17は、情報処理装置の構成例を示すブロック図である。情報処理装置90は、図17に示すように、ネットワークインターフェース91、プロセッサ92及びメモリ93を備える。ネットワークインターフェース91は、無線通信によって他の機器とデータを送受信することができる。
プロセッサ92は、上記の実施形態のシーケンス図やフローチャートを参照して説明した情報処理装置90が行う処理を、メモリ93からソフトウェア(コンピュータプログラム)をロードして実行することによって実行する。プロセッサ92は、例えば、マイクロプロセッサ、MPU(Micro Processing Unit)、又はCPU(Central Processing Unit)であってもよい。プロセッサ92は、複数のプロセッサを含んでもよい。
メモリ93は、揮発性メモリと不揮発性メモリの組み合わせによって構成される。メモリ93は、プロセッサ92から離間して配置されたストレージを含んでもよい。この場合、プロセッサ92はI/Oインターフェース(不図示)を介してメモリ93にアクセスしてもよい。
図17に示された例では、ソフトウェアモジュール群を格納するためにメモリ93が使用されている。プロセッサ92は、メモリ93からソフトウェアモジュール群を読み込み、読み込んだソフトウェアモジュールを実行することで、上記の実施形態で説明した情報処理装置が行う処理を行うことができる。
図17を参照して上記で説明したように、上記の実施形態の情報処理装置に含まれる各プロセッサは、命令群を含む1または複数のプログラムを実行して、図面を参照して上記で説明したアルゴリズムをコンピュータに実行させる。
さらに、情報処理装置90は、ネットワークインターフェースを備えてもよい。ネットワークインターフェースは、通信システムを構成する他のネットワークノード装置との通信に使用される。ネットワークインターフェースは、例えば、IEEE 802.3シリーズに準拠したネットワークインターフェースカード(NIC)を含んでもよい。情報処理装置90は、ネットワークインターフェースを使用して、入力特徴マップを受信、又は、出力特徴マップを送信してもよい。
上記の例では、プログラムが格納され、任意の種類の非一時的なコンピュータ可読媒体を使用してコンピュータに提供されることができる。非一時的なコンピュータ可読媒体には、任意の種類の有形記憶媒体が含まれる。非一時的なコンピュータ可読媒体の例としては、磁気記憶媒体(例えば、フロッピーディスク、磁気テープ、ハードディスクドライブなど。)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(compact disc read only memory)、CD-R(compact disc recordable)、CD-R/W(compact disc rewritable)、半導体メモリ(例えば、マスクROM、PROM(programmable ROM)、EPROM(erasable PROM)、フラッシュROM、RAM(random access memory)など)がある。プログラムは、任意の種類の一時的なコンピュータ可読媒体を使用してコンピュータに提供されてもよい。一時的なコンピュータ可読媒体の例としては、電気信号、光信号、電磁波がある。一時的なコンピュータ可読媒体は、有線通信回線(例えば、電線、光ファイバー)または無線通信回線を介してコンピュータにプログラムを提供することができる。
上記の実施形態の一部または全部を以下の付記のように記述することができるが、本開示はそれに限定されない。
(付記1)
所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成する生成手段と、
前記生成手段によって生成された前記部分ビデオデータを分類する分類手段と、
前記分類手段によって実行された分類の評価に基づいて、前記所定のアルゴリズムを修正する修正手段と、
を備える分類装置。
(付記2)
未加工のデータに含まれる情報を削減し、前記分類に関連する情報を含む前記ビデオデータを生成する前処理手段をさらに備える、
付記1に記載の分類装置。
(付記3)
前記修正手段は、同一のカテゴリに属することがすでに知られている要素を、前記分類手段が前記同一のカテゴリの一部としてどの程度良く分類しているかを示す指標、定義された問題に対する既定のカテゴリ数からの偏差を示す指標、及び、前記分類装置を含むシステムが全体的なタスクをどの程度達成しているかを示す指標のうち、少なくとも1つの指標を使用して前記分類を評価する、
付記1又は2に記載の分類装置。
(付記4)
前記分類手段は、前記部分ビデオデータを人間の動作の一種として分類する、
付記1から3のいずれか1項に記載の分類装置。
(付記5)
前記生成手段は、前記ビデオデータの強度信号を計算して前記特定の時間領域を決定し、前記強度信号は人の動作を示す、
付記4に記載の分類装置。
(付記6)
前記分類手段は、分類された前記部分ビデオデータをテキストラベルに割り当てる、
付記4または5に記載の分類装置。
(付記7)
分類された前記部分ビデオデータを用いて人間の意図を検出する意図検出手段をさらに備える、
付記4から6のいずれか1項に記載の分類装置。
(付記8)
前記意図検出手段によって検出された人間の意図に基づいて機械の動作を制御するコントローラをさらに備える、
付記7に記載の分類装置。
(付記9)
作業を含むビデオデータを認識し、それによって前記作業を決定する認識手段と、
決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御するコントローラと、
を備える制御装置。
(付記10)
前記ビデオデータを分類し、分類された前記ビデオデータを前記認識手段に入力する分類手段をさらに備える、
付記9に記載の制御装置。
(付記11)
所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成する生成手段と、
前記分類手段によって実行された分類の評価に基づいて、前記所定のアルゴリズムを修正する修正手段と、をさらに備え、
前記部分ビデオデータは前記認識手段によって認識される、
付記10に記載の制御装置。
(付記12)
前記修正手段は、同一のカテゴリに属することがすでに知られている要素を、前記分類手段が前記同一のカテゴリの一部としてどの程度良く分類しているかを示す指標、定義された問題に対する既定のカテゴリ数からの偏差を示す指標、及び、前記分類装置を含むシステムが全体的なタスクをどの程度達成しているかを示す指標のうち、少なくとも1つの指標を使用して前記分類を評価する、
付記11に記載の制御装置。
(付記13)
前記分類手段は、前記ビデオデータを人間の動作の一種として分類する、
付記10から12のいずれか1項に記載の制御装置。
(付記14)
所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、
前記部分ビデオデータを分類することと、
分類の評価に基づいて、前記所定のアルゴリズムを修正することと、
を含む分類方法。
(付記15)
作業を含むビデオデータを認識し、それによって前記作業を決定することと、
決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御することと、
を含む制御方法。
(付記16)
所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、
前記部分ビデオデータを分類することと、
分類の評価に基づいて、前記所定のアルゴリズムを修正することと、
をコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体。
(付記17)
作業を含むビデオデータを認識し、それによって前記作業を決定することと、
決定された前記作業に応じて機械の動作を決定し、前記決定された作業に従って前記機械を制御することと、
をコンピュータに実行させるプログラムを格納する非一時的なコンピュータ可読媒体。
広く説明された本開示の精神または範囲から逸脱することなく、特定の実施形態に示されているように、本開示には多くのバリエーション及び/又は変更を加えてもよいことは、当業者には理解されるであろう。したがって、本実施形態は、すべての点で例示的であり、制限的ではないとみなされる。
10 分類装置
11 生成部
12 分類部
13 修正部
14 制御装置
15 認識部
16 コントローラ
20 分類システム
21 前処理部
22 生成部
23 分類部
24 マッピング部
25 修正部
26 計算部
27 信号分析部
28 決定部
29 サブシーケンス生成部
30 意図検出システム
31 人物対象分析部
32 意図検出部
40 機械
41 信号発生器
42 オプティマイザコントローラ

Claims (8)

  1. 所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成する生成手段と、
    前記生成手段によって生成された前記部分ビデオデータを所定のカテゴリに分類する分類手段と、
    前記分類手段によって実行された分類の評価に基づいて、前記所定のカテゴリが適切でないと判断した場合に、前記生成手段に対し、前記所定のアルゴリズムのうち前記所定のカテゴリに対応する部分を修正させる修正手段と、
    を備える分類装置。
  2. 前記生成手段は、前記所定のアルゴリズムを用いて、前記ビデオデータの強度信号を計算し、前記強度信号を分析することで特徴点を決定し、前記特徴点を用いて前記部分ビデオデータを生成し、
    前記修正手段は、前記所定のカテゴリに対応する部分として、前記強度信号を計算する方法を変更させる、
    請求項1に記載の分類装置。
  3. 前記生成手段は、前記所定のアルゴリズムを用いて、前記ビデオデータの強度信号を計算し、前記強度信号を分析することで特徴点を決定し、前記特徴点を用いて前記部分ビデオデータを生成し、
    前記修正手段は、前記所定のカテゴリに対応する部分として、前記特徴点を決定する方法を変更させる、
    請求項1に記載の分類装置。
  4. 未加工のデータに含まれる情報を削減し、前記分類に関連する情報を含む前記ビデオデータを生成する前処理手段をさらに備える、
    請求項1から3のいずれか1項に記載の分類装置。
  5. 前記修正手段は、同一のカテゴリに属することがすでに知られている要素を、前記分類手段が前記同一のカテゴリの一部としてどの程度良く分類しているかを示す指標、定義された問題に対する既定のカテゴリ数からの偏差を示す指標、及び、前記分類装置を含むシステムが全体的なタスクをどの程度達成しているかを示す指標のうち、少なくとも1つの指標を使用して前記分類を評価する、
    請求項1から4のいずれか1項に記載の分類装置。
  6. 前記分類手段は、前記部分ビデオデータを人間の動作の一種として分類する、
    請求項1からのいずれか1項に記載の分類装置。
  7. 所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、
    前記部分ビデオデータを所定のカテゴリに分類することと、
    分類の評価に基づいて、前記所定のカテゴリが適切でないと判断した場合に、前記所定のアルゴリズムのうち前記所定のカテゴリに対応する部分を修正することと、
    を含む分類方法。
  8. 所定のアルゴリズムに基づいてビデオデータの特定の時間領域を決定し、前記特定の時間領域において前記ビデオデータが抽出された部分ビデオデータを生成することと、
    前記部分ビデオデータを所定のカテゴリに分類することと、
    分類の評価に基づいて、前記所定のカテゴリが適切でないと判断した場合に、前記所定のアルゴリズムのうち前記所定のカテゴリに対応する部分を修正することと、
    をコンピュータに実行させるプログラム。
JP2023523666A 2020-10-29 2020-10-29 分類装置、分類方法及びプログラム Active JP7485217B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/040660 WO2022091304A1 (en) 2020-10-29 2020-10-29 Categorization apparatus, control device, categorization method, control method and computer readable medium

Publications (2)

Publication Number Publication Date
JP2023546189A JP2023546189A (ja) 2023-11-01
JP7485217B2 true JP7485217B2 (ja) 2024-05-16

Family

ID=81382079

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2023523666A Active JP7485217B2 (ja) 2020-10-29 2020-10-29 分類装置、分類方法及びプログラム

Country Status (2)

Country Link
JP (1) JP7485217B2 (ja)
WO (1) WO2022091304A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
JP2009009413A (ja) 2007-06-28 2009-01-15 Sanyo Electric Co Ltd 動作検知装置及び動作検知プログラム、並びに動作基本モデル生成装置及び動作基本モデル生成プログラム
JP2020021421A (ja) 2018-08-03 2020-02-06 株式会社東芝 データ分割装置、データ分割方法およびプログラム
WO2020050111A1 (ja) 2018-09-03 2020-03-12 国立大学法人東京大学 動作認識方法及び装置
JP2020126144A (ja) 2019-02-05 2020-08-20 ソフトバンク株式会社 システム、サーバ装置及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005202653A (ja) 2004-01-15 2005-07-28 Canon Inc 動作認識装置及び方法、動物体認識装置及び方法、機器制御装置及び方法、並びにプログラム
JP2009009413A (ja) 2007-06-28 2009-01-15 Sanyo Electric Co Ltd 動作検知装置及び動作検知プログラム、並びに動作基本モデル生成装置及び動作基本モデル生成プログラム
JP2020021421A (ja) 2018-08-03 2020-02-06 株式会社東芝 データ分割装置、データ分割方法およびプログラム
WO2020050111A1 (ja) 2018-09-03 2020-03-12 国立大学法人東京大学 動作認識方法及び装置
JP2020126144A (ja) 2019-02-05 2020-08-20 ソフトバンク株式会社 システム、サーバ装置及びプログラム

Also Published As

Publication number Publication date
WO2022091304A1 (en) 2022-05-05
JP2023546189A (ja) 2023-11-01

Similar Documents

Publication Publication Date Title
US10296102B1 (en) Gesture and motion recognition using skeleton tracking
US20170232294A1 (en) Systems and methods for using wearable sensors to determine user movements
US20150029092A1 (en) Systems and methods of interpreting complex gestures
JP2021503662A (ja) ニューラルネットワークのモデルの訓練
JP2014137818A (ja) 手の平開閉動作識別方法と装置、マン・マシン・インタラクション方法と設備
CN104350509A (zh) 快速姿势检测器
Masood et al. Measuring and reducing observational latency when recognizing actions
US11825278B2 (en) Device and method for auto audio and video focusing
JP2011170711A (ja) 移動物体追跡システムおよび移動物体追跡方法
JP7192143B2 (ja) オンライン学習を利用した物体追跡のための方法およびシステム
KR20140134803A (ko) 다중 클래스 svm과 트리 분류를 이용한 제스처 인식 장치 및 방법
JPWO2020026643A1 (ja) 情報処理装置、情報処理方法及び情報処理プログラム
EP3379482A1 (en) Information processing device calculating statistical information
US20210019547A1 (en) System and a method for efficient image recognition
CN112668607A (zh) 一种用于目标物体触觉属性识别的多标签学习方法
US20190355479A1 (en) Method and system for automated inclusion or exclusion criteria detection
Ponce-López et al. Non-verbal communication analysis in victim–offender mediations
Li et al. Recognizing hand gestures using the weighted elastic graph matching (WEGM) method
KR101287948B1 (ko) 동작 인식 방법, 장치 및 이 방법을 수행하는 컴퓨터 판독 가능한 기록 매체
JP7485217B2 (ja) 分類装置、分類方法及びプログラム
KR20140140482A (ko) 오브젝트의 움직임을 이용하여 사용자 입력을 처리하는 장치 및 방법
Sen et al. HGR-FYOLO: a robust hand gesture recognition system for the normal and physically impaired person using frozen YOLOv5
Babu et al. Controlling Computer Features Through Hand Gesture
Christensen et al. An experience-based direct generation approach to automatic image cropping
Harini et al. A novel static and dynamic hand gesture recognition using self organizing map with deep convolutional neural network

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230418

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230418

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20231121

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20240117

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20240402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20240415

R150 Certificate of patent or registration of utility model

Ref document number: 7485217

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150