JP6772023B2 - ユーザー状態検出による集団相互作用の方法及びシステム - Google Patents

ユーザー状態検出による集団相互作用の方法及びシステム Download PDF

Info

Publication number
JP6772023B2
JP6772023B2 JP2016205763A JP2016205763A JP6772023B2 JP 6772023 B2 JP6772023 B2 JP 6772023B2 JP 2016205763 A JP2016205763 A JP 2016205763A JP 2016205763 A JP2016205763 A JP 2016205763A JP 6772023 B2 JP6772023 B2 JP 6772023B2
Authority
JP
Japan
Prior art keywords
participants
involvement
time
data stream
data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016205763A
Other languages
English (en)
Other versions
JP2017123149A (ja
Inventor
マリア フランク,
マリア フランク,
ガッセム トフィギ,
ガッセム トフィギ,
ナンディタ エム. ナヤック,
ナンディタ エム. ナヤック,
ハイソン グ,
ハイソン グ,
Original Assignee
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド, コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド filed Critical コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
Publication of JP2017123149A publication Critical patent/JP2017123149A/ja
Application granted granted Critical
Publication of JP6772023B2 publication Critical patent/JP6772023B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/254Fusion techniques of classification results, e.g. of results related to same input data
    • G06F18/256Fusion techniques of classification results, e.g. of results related to same input data of results relating to different input data, e.g. multimodal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/809Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data
    • G06V10/811Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of classification results, e.g. where the classifiers operate on the same input data the classifiers operating on different input data, e.g. multi-modal recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/11Hand-related biometrics; Hand pose recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/16Human faces, e.g. facial parts, sketches or expressions
    • G06V40/174Facial expression recognition
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B6/00Tactile signalling systems, e.g. personal calling systems
    • GPHYSICS
    • G08SIGNALLING
    • G08BSIGNALLING OR CALLING SYSTEMS; ORDER TELEGRAPHS; ALARM SYSTEMS
    • G08B7/00Signalling systems according to more than one of groups G08B3/00 - G08B6/00; Personal calling systems according to more than one of groups G08B3/00 - G08B6/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N13/20Image signal generators
    • H04N13/204Image signal generators using stereoscopic image cameras
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/14Systems for two-way working
    • H04N7/15Conference systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N13/00Stereoscopic video systems; Multi-view video systems; Details thereof
    • H04N2013/0074Stereoscopic image analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • Psychiatry (AREA)
  • Evolutionary Biology (AREA)
  • Social Psychology (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • User Interface Of Digital Computer (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Image Analysis (AREA)

Description

本開示はユーザー状態検出による集団相互作用の方法及びシステムに関し、特に、ユーザー状態を検出し、各ユーザーについて関与スコアを生成し、一以上のユーザーに対して一定の状況でフィードバックを提供することに基づき、ユーザー同士又は人と機械との相互作用を改善する方法及びシステムに関する。
図1に示す集団ミーティングシナリオ100において、参加者110,112,114,116,118は、互いに話し合い、交渉し、発表し、考案する。多くのミーティングは、例えば、テーブルの周りに着席する参加者と、ときにディスプレイの前に立って発表する参加者とによって実施される。また、更に多くのミーティングが、例えばビデオ会議によって離れた状況で実施されるようになっている。ビデオ会議では、参加者は二以上の場所におり、発表やミーティングの間すべての参加者が見えるわけではない。例えば、一以上の参加者はミーティングの間いつでも見えなくなる場合がある。
集団力学やミーティングの際に参加者が発現する特定の行動によって、集団活動における様々な精神状態を正確に観察できないことも多い。例えば、各参加者の集団における種々の精神状態は、関与、ストレス、注意、興奮、意見の一致及び/又は不一致などの興味の様子を含みうる。
したがって、ミーティングの質を改善するため、個々のユーザー又は参加者の様々な精神状態又はユーザー状態と、分散して配置された集計集団状態とを理解することが望ましい。
上記の点を考慮して、参加者の隠れた精神状態を計測し、評価し、これにフィードバックを与える方法及びシステムを有することが望ましい。
ミーティングにおける2人以上の参加者間の相互作用を検出する方法であって、
前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉する工程と、
前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出する工程と、
前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類する工程と、
前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算する工程と、
前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供する工程と、
を有し、
前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する工程は、
前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出する工程と、
運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正する工程と、
確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去する工程と、を有することを特徴とする方法が開示される。
2人以上の参加者間の相互作用を検出するコンピューター読取可能なコードを記憶したコンピュータープログラムであって、前記プログラムはコンピューターにより実行され、
前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉する工程と、
前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出する工程と、
前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類する工程と、
前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算する工程と、
前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供する工程と、
を含み、
前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する工程は、
前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出する工程と、
運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正する工程と、
確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去する工程と、を含む処理を前記コンピューターに実行させることを特徴とするコンピュータープログラムが開示される。
2人以上の参加者間の相互作用を検出するシステムであって、
前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉するデータ入力モジュールと、
前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出するモジュールと、
前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類し、
前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算し、
前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供するように構成されたプロセッサーと、
を備え
前記プロセッサーは、
前記2人以上の参加者の各々についての前記時系列の骨格データを、前記複数の体位識別子に基づいて分類する際に、
前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出し、
運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正し、
確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去することを特徴とするシステムが開示される。
2人以上の参加者が参加するミーティングにおける集団相互作用を改善するシステムであって、
前記2人以上の参加者の各々について、前記参加者の態度に基づき、関与した状態及び離脱した状態を含む前記ミーティングへの前記参加者の関与状態である個別関与状態を計算し、
前記2人以上の参加者の前記態度に基づき、前記ミーティングへの前記2人以上の参加者の関与状態である集団関与状態を計算し、
フィードバックを提供するように構成されたプロセッサーと、
前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉するデータ入力モジュールと、
前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出するモジュールと、
を備え、
前記プロセッサーは、
前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類し、
前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての個別関与スコアを計算し、
前記フィードバックの提供は、
前記離脱した状態を有する前記参加者の数が第一の閾値を超えた場合は、前記参加者の前記個別関与状態に関わらず、前記参加者のすべてに対して集団警告を与えること、
前記離脱した状態を有する前記参加者の数が第二の閾値を超えない場合は、前記離脱した状態を有する前記参加者にのみ警告を与えること、及び
前記集団関与状態に従って、ミーティング室のシステムに環境的フィードバックを提供することを含み、
前記プロセッサーは、
前記2人以上の参加者の各々についての前記時系列の骨格データを、前記複数の体位識別子に基づいて分類する際に、
前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出し、
運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正し、
確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去することを特徴とするシステムが開示される。
上述した概要及び以下の詳細な説明はともに例示的かつ説明的なものであって、特許請求の範囲に記載された本発明について更なる説明を提供することを意図するものである。
例示的な実施形態によるコラボレーションシナリオを示す図である。 例示的な実施形態による関与スケールを示す図である。 例示的な実施形態による、特徴を導くために用いる関節の三次元(3D)位置を示す図である。 例示的な実施形態によるシステムアプローチを示す図である。 例示的な実施形態による一般的な有限状態機械(FSM)遷移図を示す図である。 例示的な実施形態による関与検出のフローチャートを示す図である。 例示的な実施形態による、一連のフレームの異なる色で示された異なるジェスチャーへのセグメント化の例を示す図である。 例示的な実施形態による、関与検出を使ったジェスチャーセグメンテーションのフローチャートを示す図である。 例示的な実施形態による、数回のミーティングにわたる個別の例示的関与スコアを示す図である。 本明細書に開示する方法及びプロセスによる、未分類ユーザーの個人又は集団が少なくとも一つのサーバーに接続され、該少なくとも一つのサーバーがデータを処理するように構成された遠隔会議シナリオを示す図である。
添付図面に例示される本発明の好ましい実施形態について、ここに詳細に説明する。同じ又は類似する部分に言及する図面及び記載には、可能な限り同じ参照番号を用いる。
添付図面は本発明の更なる理解のために含まれており、本明細書に組み込まれて、その一部をなす。図面は本発明の実施形態を図示し、本明細書とともに本発明の原理を説明する役割を果たす。
例示的な実施形態に従い、本開示は、ユーザー状態検出の方法及びシステムの実施形態として、関与(エンゲージメント)を用いる。関与とは、注意深く傾聴し、観察し、及びフィードバックを提供する状態、又は集団相互作用における主役のようなふるまいと定義することができる。関与レベルは、例えば、集団相互作用の流れや生産性に影響する。したがって、例えば、集団ミーティングの参加者間における協力を改善するため、関与レベルの認識を促すことが興味の対象となる。
図2は、例示的な実施形態による関与スケール200を示す図である。集団ミーティングシナリオにおいて、例えば、離脱(ディスエンゲージメント)から身を入れた行動に至るまで、各参加者の関与(又はユーザー状態)には種々のレベルがある。例えば、図2に示すように、関与スケールの種々のレベルは下記を含む。
(a)離脱、例えば、散漫及び/又は油断
(b)緩やかな関与、例えば、傾聴又は観察
(c)身を入れた関与、例えば、うなずき、傾聴、非言語的フィードバック
(d)行動の意思、例えば、前方に傾く及び/又は口を開くジェスチャー
(e)行動、例えば、話す及び/又は操ること
(f)身を入れた行動、例えば、激しいジェスチャー及び/又は早口での発言
例示的な実施形態によれば、例えば、本明細書に開示するように、集団相互作用におけるユーザー状態及び本明細書でいう関与の尺度を確立することによって、フィードバック生成に関連する実施と、ジェスチャー検出及び行動するユーザーの検出の改善とが可能になる。
(マルチモーダルデータ)
例示的な実施形態によれば、マルチモーダルデータアプローチを用いて関与及びユーザー状態を検出及び評価することができる。
(体位構成要素データ)
例示的な実施形態によれば、一組の分類子は体位及びジェスチャーに基づくものである。図3は、例示的な実施形態による、特徴を導くために用いる関節の三次元(3D)位置300を示す。本明細書に開示するシステム及び方法は、2D画像情報とともに3D骨格情報を用いることができる。
例示的な実施形態によれば、少なくとも一つのセンサーが、各ユーザーが可視的となる既知の場所に設置される。深度カメラ及びモーションセンサーを使用して、人の上半身の骨格系の9つの主要な関節の3D位置が検出される(図3)。それ以外に検出された6つの関節、例えば、左右の足、左右の膝、左右の尻は、ミーティングシナリオにおいてデスクに隠れてしまうので、特徴を導くために使用されない。また、それ以外に検出された2つの関節である左右の手も、手首関節に非常に近く重複しかねないため、特徴を導くために使用されない。
(音声データ)
例示的な実施形態によれば、このデータセットは、ユーザー状態検出を特徴づける他の音声解析分類子間の、ピッチ、音声周波数、発言検出及びボリュームの同定を含む。例えば、活発なユーザーの検出を更にサポートするため、ステレオセンサーを用いることができる。
(顔データ)
例示的な実施形態によれば、ユーザー状態検出を特徴づける感情分類子を生成するため他のものと共に使用される顔特徴を識別する2DのRGB画像及び3D画像を用いて、顔データ解析を行うことができる。
(重みデータ)
例示的な実施形態によれば、椅子における重みセンサーが、重み分布に基づく姿勢の追加的評価を可能とする。椅子に重みセンサーを使用することで、より安定したユーザー状態検出における相互相関が可能となる。
(ユーザー状態検出―関与)
関与レベルの追跡を可能とするため、生体解析を通じた参加者の相互作用関与の追跡、例えば、身体姿勢の解析、音声の解析及び表情の識別を用いることができる。例示的な実施形態によれば、非言語的合図が、話者の内部状態の情報を伝達し、非侵襲的な尺度を作成しうる。このデータに基づき、フィードバックが作成される。
例示的な実施形態は、マルチモーダル関与ユーザー状態検出プロセスを提案する。例示的なシナリオでは、センサーの動作範囲内、例えば、カメラの観測視野に、複数の人々がいる。例えば、このモジュールは、図2に示す離脱から身を入れた行動に至る関与スケールでの参加者の状態を同定することができる。
(分類子)
モジュールは、生体情報を用いて、すべてのカテゴリーの分類子の特定の組合せを示す人を同定する。体位構成要素などの分類子は、それらを注意深さや関与に結びつける調査に基づいて選択することができる。
例示的な実施形態によれば、解析はフレーム単位であってもよい。各フレームはすべての分類子について解析されうる。例えば、各フレームは、(1)手を上げ(3D)、(2)ディスプレイに顔を向け(2D)、(3)前方に傾き(3D)、(4)後方に傾き(3D)、(5)フィードバックを述べ(音声)、(6)猫背になり(3D)、又は(7)最後の60フレームにおいて姿勢(重み)を変更する人である。
例示的な実施形態によれば、分類子は、各フレームにおいて個々の参加者に現れるか否かによって、二値で評価される。例えば、分類子は、特定の姿勢についてのヒューリスティクスや、より複雑な動作パターンについてのサポートベクターマシン(SVM)特徴解析(或いは機械学習のアルゴリズム)に基づいて定義される。
図4は、例示的な実施形態によるシステム400アプローチを示す。図4に示すように、システム400は、複数の未分類ユーザー(又は参加者)412を含むコラボレーションシナリオ410を含み、特徴及び骨格抽出モジュール420によって特徴及び骨格抽出が行われる。その後、複数の未分類ユーザー(又は参加者)412の各々の特徴及び骨格抽出が、分類子検出及び評価モジュール430に入力される。分類子検出及び評価モジュール430は、身体の構成要素を、例えば、猫背=0、前傾=1、後傾=0、ディスプレイに顔を向ける=1、上げた手=1、姿勢変更=1、及び発言=1のように分類する。その後、未分類ユーザー410の各々について、分類子を用いて0〜1.0の関与スコア440の計算結果が生成される。未分類ユーザーの各々には、個別の関与分類子と、集団或いはチーム分類子450(例えばチーム=0.49)とが割り当てられる。例示的な実施形態によれば、関与スコア440を用いて、一以上のユーザー(又は参加者)412の各々の関与状態を生成又は判断することができる。
例示的な実施形態によれば、図4に示すように、コラボレーションシナリオ410は、例えば、一以上のデータ入力装置(図示せず)を含んでもよい。一以上のデータ入力装置は、例えば、モーション及び/又は深度センサー、RGBカメラ、ミーティング室における一以上の椅子の各々に対する重みセンサー、及び/又はマイクを含む。例えば、例示的な実施形態によれば、アレイ状のマイクを用いて音声源の方向及び距離を検出してもよい。例示的な実施形態によれば、特徴及び骨格抽出モジュール420は、複数の未分類ユーザー412の各々について、オーディオデータ、ビデオデータ、深度データ及び/又は重みデータの形式でデータを受信するように構成されてもよい。データは、一以上のモーション及び/又は深度センサーを、例えば、ビデオカメラ、オーディオデバイス及び/又は重みセンサーとの組合せにより用いて生成してもよい。例えば、オーディオ、ビデオ及び/又は深度データは、ビデオカメラ、例えば、時系列のRGBフレーム及び深度フレームを生成するRGB‐Dカメラを用いて取得することができる。例示的な実施形態によれば、リアルタイム骨格抽出を行う深度センサーは、人のジェスチャーの認識に対する興味を生んでおり、深度センサーからの骨格データストリームを使用して入力データを生成することができる。例えば、例示的な実施形態によれば、センサーは未分類ユーザーの非言語的行動を捕捉することができる。
例示的な実施形態によれば、例えば、特徴及び骨格抽出モジュール420及び分類子検出及び評価モジュール430は、一つのコンピューターデバイス、例えばスタンドアローンコンピューターに組み合わされてもよく、或いは、各々がメモリー、プロセッサー、オペレーティングシステム及び/又はソフトウェア、並びにグラフィカルユーザーインターフェース(GUI)又はディスプレイを有する一以上のコンピューターデバイスに含まれてもよい。例示的な実施形態によれば、例えば、骨格関節3D位置、RGB及び深度情報などの生体情報が通信ネットワークを介して転送され、分散プラットホームにおいて解析されてもよい。
(有限状態機械)
関与分類子に対するアルゴリズムの効率性及び正確性を増大させるため、有限状態機械(FSM)を実装することができる。例示的な実施形態によれば、状態とは、時間に伴う変化が予想されるユーザーの精神状態又は関与の内容である。遷移は、条件の変化によって、又は状態の変化をもたらす条件の組合せによって初期化される。例えば、ジェスチャー認識システムを用いてユーザーの有意なジェスチャーを見つけ出す場合、スワイピング又はポインティングは、「行動する意思」の状態などいくつかの状態で起こる場合があり、「離脱」状態における類似のジェスチャーは、無視されるか異なる解釈をされる。
例示的な実施形態によれば、有限状態機械の表現は、行動を状態と関連づけることができる。例えば、以下の通りである。
入場動作:その状態に入るときに実行される
状態動作:その状態の間に実行される
退場動作:その状態を抜けるときに実行される
例示的な実施形態によれば、FSMは、2つの所与のフレーム間の状態変化をもたらす関連分類子の変化をより速く解析することができるように構成される。例示的な実施形態によれば、FSMを表す遷移図とともに、状態遷移テーブルを用いることもできる。表1は、3つの状態があるFSMの一般的な状態遷移を示している。例えば、現在の状態(例えばS)及び条件(例えばC23)の組合せは、次の状態(例えばS)を示す。状態間の遷移は、テーブルにおいて強調表示されている。
Figure 0006772023
表1の等価遷移図が図5に示されている。
例示的な実施形態によれば、FSMにおける2つの異なる状態間の遷移は、図5に示すように、等価遷移図で見ることができる。各状態にとどまる条件は、同じ状態から遷移する条件の否定でありうる。
例示的な実施形態によれば、関与FSMは、6つの要素の組(S,G,S,s,d,w)である。ただし、Sは入力アルファベット(記号の有限非空集合)であり、Gは出力アルファベット(記号の有限非空集合)であり、Sは関与状態の有限非空集合、sは初期の関与状態であって、Sの要素である。一以上の初期状態がある場合は、sは初期状態の集合となる。また、dは状態遷移関数(d:S×S(R) S)、wは出力関数である。
例示的な実施形態によれば、出力関数が状態と入力アルファベットとの関数である場合は(w:S×S(R)G)、その定義はミーリ・モデルと一致し、ミーリ・マシンとしてモデル化することができる。出力関数が状態にのみ依存する場合は(w:S(R)G)、その定義はムーア・モデルと一致し、ムーア・マシンとしてモデル化することができる。出力関数がまったくないFSMは、半オートマトン又は遷移系として知られている。
(重み及び最終関与スコア)
例示的な実施形態によれば、個々の分類子に対する二進値は、トレーニングデータにおける相対的影響に基づいて重みづけされ、合計して関与スコアとされる。したがって、関与スコアは、例えば、0と1の間の値となる。例示的な実施形態によれば、関与スコアはFSM(w:S×S(R)G)の出力に基づいて計算することができる。
関与スコアは下記の式により計算することができる。
Figure 0006772023
関与スコアの計算は以下のようになる。
Figure 0006772023
例示的な実施形態によれば、関与状態は、関与スコアに関する閾値に基づいて評価することもできる。例えば、関与スコアの増加は関与レベルの増加を構成する。該レベルは、関与スコアの特定の数値的閾値を跨ぐと変化する。例えば、以下の通りである。
離脱 < 非常に低い関与スコア
緩やかな関与 > 低い関与スコア
身を入れた関与 > 低い/中間の関与スコア
行動の意思 > 中間の関与スコア
行動 > 中間の高い関与スコア
身を入れた行動 > 高い関与スコア
個別関与スコアに基づき、合計としてチーム関与スコアが計算される。また、2人の参加者間の関与スコアは、姿勢方向を考慮に入れて計算することができる。例示的な実施形態によれば、関与スコアは、チームの関与レベル、チームメンバー間の力学、オブジェクトとインターフェースとの相互関係を反映しうる。
(関与検出の適用)
例示的な実施形態では、複数の参加者が一つの部屋にいるミーティングで、一人の活発な参加者は、通常、話をし、及び/又は同時にディスプレイと相互作用し、その一方で、他の者は傾聴し、観察する。また、ミーティングを通して、活発な参加者は変化しうる。例示的な実施形態によれば、個々の及び集団の関与レベルを計算することで、集団活動のフィードバックが可能となる。これにより、管理的調整及び環境的調整を可能として、より人を引き付け、生産的な仕事環境を作り、ユーザー検出を改善してジェスチャー認識の正確性を高めることが可能となる。例示的な実施形態によれば、関与スコアの適用は、図6に示すように実現することができる。
図6に示すように、関与スコアは、ステップ600で初めに参加者又はユーザーの各々を検出することにより計算することができる。ステップ610において、参加者又はユーザーの各々が同定される。ステップ620において、体位構成要素が同定される。ステップ630において、体位構成要素の重みづけが実施される。ステップ640において、参加者又はユーザーの各々について、個別関与スコアが計算される。ステップ650において、集団関与スコアが計算される。
ステップ660において、集団関与スコアの変化が所定の閾値よりも大きいか否かの判断が行われる。集団関与スコアの変化が所定の閾値よりも大きくない場合は、ステップ662において、環境的調整は行われない。しかしながら、集団関与スコアの変化が所定の閾値よりも大きい場合は、ステップ664において調整が行われる。
例示的な実施形態によれば、環境的調整又は変化にはフィードバックの提供が含まれる。フィードバックの提供には、離脱した状態の参加者の数が第一の閾値を超えた場合に、参加者全員に対して個別関与状態に関わらず集団警告をすること、離脱した状態の参加者の数が第二の閾値を超えない場合に離脱した状態の参加者にのみ警告を与えること、及び/又は集団関与状態に従ってミーティング室のシステムに環境的フィードバックを提供することを含む。例示的な実施形態では、第二の閾値よりも第一の閾値の方が高い。
例示的な実施形態によれば、フィードバックは、一定の時間フレームにおける参加者の態度に基づいて提供される。また、ミーティングをサポートする環境的フィードバックも、離脱した状態の参加者の数が第一の閾値を超えた場合に提供されうる。例えば、環境的フィードバックは、集団関与状態における変化が第三の閾値より大きい場合に提供される。
ステップ670において、ジェスチャー検出のためのユーザー選択分類子が実施される。ステップ672において、ジェスチャー検出のためのセグメンテーション及び選択分類子の検出がサポートされる。
ステップS680において、集団の所定の数、例えば40%が離脱しているか否かが判断される。ステップ680で集団が離脱していると判断されると、処理はステップ682に進み、集団フィードバックが送信される。集団における数が所定の数を超えないと判断されると、ステップ684において、一以上の参加者又はユーザーが離脱しているか否かが判断される。ステップ686では、一以上の参加者又はユーザーが離脱していると、参加者又はユーザーの各々は、メッセージ又は信号の形でフィードバックを送られる。ステップ688において、いずれの参加者又はユーザーも離脱していない場合は、フィードバックは与えられない。
(ジェスチャー認識の改善)
連続動作が長時間にわたって行われるシステムでは、種々の有意な動作をセグメントに分割し、無意味な動作を無視し、有意な動作の各々に対して求められるタスクを実行する必要がある。例示的な実施形態では、ここに開示する動作セグメンテーション及び認識モジュールによってこれを実行することができる。また、ユーザー関与状態の検出は、現在のジェスチャーセグメンテーション及び認識をサポートし改善することができる。
(ユーザー同定)
広範囲対話型ディスプレイによるミーティングシナリオは、例えばシステムが常にオンとなる「ミダス・タッチ・プロブレム(Midas Touch Problem)」を引き起こしうる。例示的な実施形態によれば、関与スコアは、それより下であれば関与及び相互作用の意思の欠如に基づきジェスチャーが排除される閾値を作成できる限りにおいて、ユーザー同定及び関連するジェスチャーの認識をサポートする。また、関与スコアは、種々の参加者の関与レベルを比較して、主たる参加者(又はユーザー)を最も高い関与スコアを有する参加者(又はユーザー)として選択することを可能とする。
(ジェスチャーセグメンテーション)
正確なジェスチャーセグメンテーションは未だジェスチャー検出における課題である。
図7に示すように、例示的な実施形態では、ジェスチャーセグメンテーションは、いつ現在のジェスチャーが終了して新たなジェスチャーが開始されるかを決定するフレーム又はフレームの組の検討を含む。図7に示すように、ジェスチャーセグメンテーションは3つのステップを含みうる。
(1)第一工程は、最大平均差異(Maximum Mean Discrepancy:MMD)を適用し、連続するジェスチャーにおける変化点を、ジェスチャー遷移の初期推定切断部として検出する。
(2)第二工程は、運動学的拘束(kinematic constraints)を用いて、初期推定切断部を正確なジェスチャー遷移位置に修正する。
(3)確密度推定を用いて2つの切断部の間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去する。
例示的な実施形態によれば、ユーザーが相互作用を望まず単に体動を示しているにすぎないことを低い関与スコアが示す限りにおいて、関与状態の評価は関連ジェスチャーと非関連ジェスチャーとを分離するのに役立つため、関与セグメンテーションはジェスチャーセグメンテーションを改善する。したがって、関与スコアは、人がいつシステムと相互作用してジェスチャーセグメンテーションモジュールをオンにするつもりかについて、システムが理解するのを助ける。また、関与のレベルは、動作の強さの示度を提供する。例えば、関与レベルが高いほど、ジェスチャーはより高頻度でスピードも速い。これは、個々のセグメントの想定される長さに付加的な情報を提供しうる。個々の分類子は、体動を特定の姿勢と関連づけることもできる。例えば、分類子がその状態を変化させる場合、ジェスチャーが変化又は開始される可能性が高まる。したがって、分類子の変化は、動作のセグメンテーションをフレームごとのレベルでサポートして、セグメンテーションのトリガとなりうる。
図8は、例示的な実施形態の関与検出を用いたジェスチャーセグメンテーションのフローチャートを示す。図8に示すように、ステップ810において、人の検出とユーザーの同定が行われる。ステップ820において、人の検出情報及びユーザーの同定情報は、関与検出モジュールに入力される。関与検出モジュールでは、関与レベルが判断され、ステップ830のプロセスで、「相互作用の意思」以上が検出されたか判断される。関与レベルが「相互作用の意思」以上でない場合は、ステップ832において、いかなる動作も実行されない。プロセスが「相互作用の意思」以上が検出されたと判断した場合は、ステップ840に進み、セグメント期間の推定が実行される。ステップ842では、推定セグメント期間に、最大平均差異(MMD)、運動学的拘束、及び確密度推定が行われる。ステップ850では、ジェスチャー切断部推定が結合され、ステップ860でジェスチャーセグメントが出力される。
(ジェスチャー分類)
セグメンテーションが実行されると、有意なジェスチャーを認識することができる。例示的な実施形態によれば、有意なジェスチャーの同じ組を実行する数人の演者からなるトレーニングセットは、特徴の抽出に用いることができ、サポートベクターマシン(SVM分類子)を作り上げる。抽出したセグメントからの特徴は、行動を認識するSVMに送り込まれる。
例示的な実施形態によれば、ジェスチャー認識における課題は、セグメント化されたジェスチャーが未知のジェスチャーか否か、又は、それが認識された/有意なジェスチャーの組に属するか否かの判断と、ノイズや姿勢の変化がある場合の有意なジェスチャーの正確な分類とを含む。
例示的な実施形態によれば、関与検出は、これらの課題の双方に役立つ。例えば、個々の体位構成要素分類子は、ジェスチャー分類の正確性を改善する付加的な情報を与えうる。特定のセグメントに対する分類の信頼度が低い場合は、特定のジェスチャーに関係する特定の分類子をサポート変数として使うことができる。分類子は、ジェスチャーに関連する体位に特徴を提供する。例えば、特定のジェスチャーに表れた分類子の特定の組が同定されると、続くフレームにおいてそのジェスチャーの可能性が高まる。関与スコアは、有限状態機械を用いて、見込みがなく無関係の特徴及びジェスチャーを除外することにより、各フレームにおいて可能性があるジェスチャーの数を制限するのに役立つ。また、分類子は、ジェスチャー分類モジュールに追加的な姿勢情報を提供して、ジェスチャーが未知であるか有意であるかを判断する。
(ポインティング精度)
ジェスチャー検出の課題の一つは、ポインティングの精度である。関与レベルは、安定性を高めるために、ポインティング及びトラッキングを検出することができる。例示的な実施形態によれば、ポインティングは2つのセグメントを持ちうる。2つのセグメントには、ユーザーがハイライト/指摘したいスクリーン上のポイントを見つけ出すこと、並びに、ユーザーがポインティングを続ける場合に、ポインティングハンドをトラッキングしてハイライトされたポイントの位置を適切に変更することを含む。
第一の工程では、ユーザーは彼らの動作やターゲットに注目するが、第二の工程では、ユーザーは会話及び他のミーティングの参加者に注目し、目的を失って動揺する。
例示的な実施形態によれば、関与スコア及び特定の分類子は、参加者がディスプレイに関与しているだけか、他の参加者にも関与しているかについて、追加的な情報を提供することができる。ユーザーがディスプレイに集中している場合は、ポインティング及びトラッキングが有効となる。ユーザーがポインティング及び他の参加者との相互作用に移行した場合は、集中点が移る間のポインティングをより安定的にするため、トラッキングは使用不能となりうる。
(ミーティング参加者への関与フィードバック及びインフラストラクチャー管理)
例示的な実施形態によれば、フィードバックシステムは、集団状態と個別のユーザー状態とに基づき、さまざま種類のフィードバックを提供することができる。例えば、関与スコア及び集団関与スコアは、フィードバック信号を作るのに用いられる。フィードバック信号は、機器又は環境の反応だけでなく、ウェアラブルデバイス又はあらゆる集団ベースデバイスを用いたオーディオ、ビジュアル、バイブレーションアラートであってもよい。例示的な実施形態によれば、システムは、フィードバックを送信する前に、十分に長い期間(例えば、約1分)、関与スコア(又はその他のユーザー状態)を監視することができる。例示的な実施形態によれば、時間フレーム(又は期間)が短すぎる場合、例えば秒刻みの場合、フィードバックは中断可能であり、より大きな趨勢の代わりに、余計な変動に応答してもよい。
ミーティング相互作用における関与へのフィードバックを作成するために、例えば、図6の工程を実施することができる。例示的な実施形態によれば、例えば、個別関与を計算する前に、ミーティングの参加者を検出し、同定することができる。個別関与に基づき、集団関与が評価される。これら2つの要素が、フィードバック生成の基礎を形成する。
(ミーティング動的フィードバック)
すべての参加者:集団警告がジョイントディスプレイ上にシンプルなポップアップとして表示され、「集団が離脱している」ことを通知する。これは、集団フィードバックがこの例において離脱に分類されると起こり、所定の数若しくは割合(例えば40%)より多い個別フィードバックが離脱に分類され、又は集団関与レベルが離脱に分類されたことを意味する。公的フィードバックが、ミーティング活動を変更し、又は再び集中させるため休息させる働きかけとして使用される。
個人:集団スコアが所定の数又は割合(例えば、関与例に関する関与閾値60%)を上回った場合、個別のデバイスを用いて、離脱した参加者にのみ通知がなされる。個別のデバイスは、例えば、スマートフォン上に「あなたは離脱しています、ミーティングに再関与してください」と表示するロック画面メッセージであってもよい。これにより、集団全体の気が散らなくなる。
管理者:関与レベルの記録は、特定のミーティング時間における全体の関与、参加、ミーティングにおける権勢など、ミーティング力学のより大きな趨勢についての見識を提供しうる(図9)。これらの見識は、ミーティング時間、必要な参加者、インタラクションプロトコルにおいて必要な変更、ミーティングの生産性に関する他の面の調整を可能とする。また、この関与スコアは、ミーティングにおける特定の参加者間の相互作用を評価して力学を解釈するダイアドレベル上にある場合もある。関与レベルを包括的なクロス表に記憶して、すべての参加者の可能な組合せにおける関与レベルをみることもできる。
(環境的フィードバック)
活動:環境的フィードバックは、集団活動及び関与レベルに基づき、ルームシステムに送信される。活動が盛んであるほど、より高い熱負荷及びより多い酸素消費を生む。この情報は、冷却を向上させて気流及び温度快適性を増加することにより、大気質を管理するのに役立つ。このように、システムは診断された負荷により速く反応して、過熱を防ぐことができる。
サポート:集団が離脱した状態は、環境システムに、室温を下げ、又は照明を明るくさせて、ミーティング参加者の目を覚まさせるきっかけとなりうる。緩やかに関与する参加者が多すぎる場合は照明がより明るくされ、離脱している参加者が多すぎる場合は室温が2〜3度下げられる。
(動作意思フィードバック)
オブジェクト固有:関与レベルを用いて、室内の種々の応答可能なオブジェクトと行動を共にするユーザー意思を同定することができる。例示的な実施形態によれば、方向性のある体位、声、動きに基づき、どのユーザーが室内のどのオブジェクトと相互作用したいかについて、応答可能なオブジェクトに追加的な情報を与えることができる。例示的な実施形態によれば、関与テーブルを用いて、各参加者の各オブジェクトとの潜在的な関与レベルを追跡することができる。
図10は、未分類ユーザーの個人又は集団が、少なくとも一つのサーバー1030,1040と接続された遠隔会議シナリオ1000を図示している。少なくとも一つのサーバー1030,1040は、本明細書に開示する方法及び処理によってデータを処理するように構成されている。図10に示すように、遠隔会議シナリオ1000では、2人以上又は集団の未分類ユーザー(参加者)412が、異なるオフィス及び/又は場所1002,1004に居る。異なるオフィス及び/又は場所1002,1004の各々には、一以上のデータ入力装置1010,1012,1020,1022が備えられていることが好ましい。一以上のデータ入力装置1010,1012,1020,1022には、例えば、モーション及び/若しくは深度センサー、RGBカメラ、ミーティング室の一以上の椅子の各々に対する重みセンサー、並びに/又は上述したマイクが含まれる。
例示的な実施形態によれば、一以上のデータ入力装置1010,1012,1020,1022の各組は、少なくとも一つのサーバー1030,1040に接続されていることが望ましい。例示的な実施形態によれば、少なくとも一つのサーバー1030,1040は、通信ネットワーク1050を介して接続されうる。或いは、一つのサーバー、例えばサーバー1030のみが一以上のデータ入力装置1010,1012,1020,1022の双方の組に用いられてもよく、一以上のデータ入力装置1010,1012,1020,1022は、通信ネットワーク1050を介してサーバー1030に接続されうる。
例示的な実施形態によれば、例えば、通信ネットワーク1050は公衆通信回線及び/又はネットワーク(例えばLAN若しくはWAN)である。通信ネットワーク1050の例には、本明細書の実施形態に整合するいかなる通信回線及び/又はネットワークも含まれる。例えば、これらに限定されるものではないが、通信又は電話回線、インターネット、イントラネット、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)、並びに/又は、無線周波(RF)及び/若しくは赤外線(IR)通信を用いた無線接続が含まれる。
例示的な実施形態によれば、少なくとも一つのサーバー1030,1040の各々又は一つのサーバー1030は、上述のように、特徴及び骨格抽出モジュール420並びに/又は分類子検出及び評価モジュール430を含む。少なくとも一つのサーバー1030,1040は、本明細書に開示する処理、例えば、図6に関して記載された関与スコアの計算、及び/又は図8に示したジェスチャーセグメンテーションを実行するように構成することができる。サーバー1030,1040は、例えば、メモリー、プロセッサー、オペレーティングシステム及び/又はソフトウェア、及びグラフィカルユーザーインターフェース(GUI)又はディスプレイを有する。例示的な実施形態によれば、例えば、本明細書に開示するように、骨格関節3D位置、RGB及び深度情報などの生体情報が通信ネットワークを介して転送され、分散プラットホームにおいて解析されてもよい。
例示的な実施形態によれば、2人以上の参加者間の相互作用を検出するコンピューター読取可能なコードを記憶したコンピュータープログラムを含む非一時的コンピューター読取可能な記録媒体が開示され、前記プログラムはコンピューターにより実行され、前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉する工程と、前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出する工程と、前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類する工程と、前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算する工程と、前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供する工程と、を含む処理を前記コンピューターに実行させる。
例示的な実施形態によれば、2人以上の参加者が参加するミーティングにおける集団相互作用を改善するコンピューター読取可能なコードを記憶したコンピュータープログラムを含む非一時的コンピューター読取可能な記録媒体が開示され、前記プログラムはコンピューターにより実行され、前記2人以上の参加者の各々について、前記参加者の態度に基づき、関与した状態及び離脱した状態を含む前記ミーティングへの前記参加者の関与状態である個別関与状態を計算する工程と、前記2人以上の参加者の前記態度に基づき、前記ミーティングへの前記2人以上の参加者の関与状態である集団関与状態を計算する工程と、フィードバックを提供する工程と、を有し、前記フィードバックを提供する工程は、前記離脱した状態を有する前記参加者の数が第一の閾値を超えた場合は、前記参加者の前記個別関与状態に関わらず、前記参加者のすべてに対して集団警告を与える工程と、前記離脱した状態を有する前記参加者の数が第二の閾値を超えない場合は、前記離脱した状態を有する前記参加者にのみ警告を与える工程と、前記集団関与状態に従って、ミーティング室のシステムに環境的フィードバックを提供する工程と、を含む処理を前記コンピューターに実行させる。
コンピューター読取可能な記録媒体は、磁気記録媒体、光磁気記録媒体、又は、今後開発される記録媒体であって、同じ方法で本発明に適用可能と考えられる、いかなる記録媒体であってもよい。一次複製品、二次複製品その他を含む、かかる媒体の複製物が上記の媒体と等価であることは明らかである。更に、本発明の実施形態がソフトウェアとハードウェアとの組合せであったとしても、本発明の概念を逸脱するものではない。本発明は、ソフトウェア部品をあらかじめ記録媒体に書き込んでおき、必要に応じて作動中に読みだされるように実施することができる。
本発明の範囲又は趣旨を逸脱することなく、本発明の構造に種々の修正や変更を加えうることは、当業者において明らかである。このように、本発明は、添付の特許請求の範囲やその等価物の範囲内の変更点や修正点にまで及ぶことが意図されている。

Claims (25)

  1. ミーティングにおける2人以上の参加者間の相互作用を検出する方法であって、
    前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉する工程と、
    前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出する工程と、
    前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類する工程と、
    前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算する工程と、
    前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供する工程と、
    を有し、
    前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する工程は、
    前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出する工程と、
    運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正する工程と、
    確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去する工程と、を有することを特徴とする方法。
  2. 前記複数の体位識別子は、手を上げること、ディスプレイに顔を向けること、前方に傾くこと、後方に傾くこと、及び/又は猫背になることのうち一以上を含むことを特徴とする請求項1に記載の方法。
  3. 前記2人以上の参加者についてのオーディオデータストリームを捕捉する工程と、
    前記2人以上の参加者についての前記オーディオデータストリームにおいて検出された発言に基づき、前記関与スコアに発言識別子を加える工程と、
    を有することを特徴とする請求項1に記載の方法。
  4. 前記2人以上の参加者についての重みデータストリームであって、椅子の上の前記2人以上の参加者の各々の重み分布に対応する前記重みデータストリームを捕捉する工程と、
    前記2人以上の参加者の各々の前記重み分布に基づき、前記関与スコアに重み分布識別子を加える工程と、
    を有することを特徴とする請求項1に記載の方法。
  5. 前記2人以上の参加者についての集団関与スコアを生成する工程を有することを特徴とする請求項1に記載の方法。
  6. 前記2人以上の参加者の各々についての前記関与スコアと、前記集団関与スコアとに基づき、フィードバックを生成する工程であって、前記フィードバックは、ウェアラブルデバイスを用いたオーディオ、ビジュアル、バイブレーションアラート、又はミーティング室における環境的条件の変更のうち一以上を含む工程を有することを特徴とする請求項5に記載の方法。
  7. 前記2人以上の参加者の各々についての前記時系列の骨格データに対し、有限状態機械モデルを適用する工程を有することを特徴とする請求項1に記載の方法。
  8. 2人以上の参加者間の相互作用を検出するコンピューター読取可能なコードを記憶したコンピュータープログラムであって、前記プログラムはコンピューターにより実行され、
    前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉する工程と、
    前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出する工程と、
    前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類する工程と、
    前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算する工程と、
    前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供する工程と、
    を含み、
    前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する工程は、
    前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出する工程と、
    運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正する工程と、
    確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去する工程と、を有する処理を前記コンピューターに実行させることを特徴とするコンピュータープログラム。
  9. 前記複数の体位識別子は、手を上げること、ディスプレイに顔を向けること、前方に傾くこと、後方に傾くこと、及び/又は猫背になることのうち一以上を含むことを特徴とする請求項に記載のコンピュータープログラム。
  10. 前記2人以上の参加者についてのオーディオデータストリームを捕捉する工程と、
    前記2人以上の参加者についての前記オーディオデータストリームにおいて検出された発言に基づき、前記関与スコアに発言識別子を加える工程と、
    を有することを特徴とする請求項に記載のコンピュータープログラム。
  11. 前記2人以上の参加者の重み分布についての重みデータストリームであって、椅子の上の前記2人以上の参加者の各々の前記重み分布に対応する前記重みデータストリームを捕捉する工程と、
    前記2人以上の参加者の各々の前記重み分布に基づき、前記関与スコアに重み分布識別子を加える工程と、
    を有することを特徴とする請求項に記載のコンピュータープログラム。
  12. 前記2人以上の参加者についての集団関与スコアを生成する工程を有することを特徴とする請求項に記載のコンピュータープログラム。
  13. 2人以上の参加者間の相互作用を検出するシステムであって、
    前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉するデータ入力モジュールと、
    前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出するモジュールと、
    前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類し、
    前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての関与スコアを計算し、
    前記2人以上の参加者の前記関与スコアの少なくとも一つに従って、フィードバックを提供するように構成されたプロセッサーと、
    を備え
    前記プロセッサーは、
    前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する際に、
    前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出し、
    運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正し、
    確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去することを特徴とするシステム。
  14. 前記2人以上の参加者についてのオーディオデータストリームを捕捉するように構成されたオーディオデバイスを備え、
    前記プロセッサーは、前記2人以上の参加者についての前記オーディオデータストリームにおいて検出された発言に基づき、前記関与スコアに発言識別子を加えるように構成されていることを特徴とする請求項1に記載のシステム。
  15. 前記2人以上の参加者についての重みデータストリームであって、椅子の上の前記2人以上の参加者の各々の重み分布に対応する前記重みデータストリームを捕捉する重みセンサーを備え、
    前記プロセッサーは、前記2人以上の参加者の各々の前記重み分布に基づき、前記関与スコアに重み分布識別子を加えるように構成されていることを特徴とする請求項1に記載のシステム。
  16. 前記プロセッサーは、前記2人以上の参加者についての集団関与スコアを生成するように構成されていることを特徴とする請求項1に記載のシステム。
  17. 前記関与スコア及び/又は前記集団関与スコアが所定の数又は割合を下回った場合に、前記2人以上の参加者の少なくとも1人に、リアルタイムでフィードバックを提供するように構成された、オーディオデバイス、ビジュアルデバイス、又はウェアラブルデバイス
    を備えることを特徴とする請求項1に記載のシステム。
  18. 2人以上の参加者が参加するミーティングにおける集団相互作用を改善するシステムであって、
    前記2人以上の参加者の各々について、前記参加者の態度に基づき、関与した状態及び離脱した状態を含む前記ミーティングへの前記参加者の関与状態である個別関与状態を計算し、
    前記2人以上の参加者の前記態度に基づき、前記ミーティングへの前記2人以上の参加者の関与状態である集団関与状態を計算し、
    フィードバックを提供するように構成されたプロセッサーと、
    前記2人以上の参加者についての少なくとも一つの三次元(3D)データストリームを捕捉するデータ入力モジュールと、
    前記2人以上の参加者についての前記少なくとも一つの3Dデータストリームから、時系列の骨格データを抽出するモジュールと、
    を備え、
    前記プロセッサーは、
    前記2人以上の参加者の各々についての前記時系列の骨格データを、複数の体位識別子に基づいて分類し、
    前記2人以上の参加者の各々についての前記時系列の骨格データの前記分類に基づいて、前記2人以上の参加者の各々についての個別関与スコアを計算し、
    前記フィードバックの提供は、
    前記離脱した状態を有する前記参加者の数が第一の閾値を超えた場合は、前記参加者の前記個別関与状態に関わらず、前記参加者のすべてに対して集団警告を与えること、
    前記離脱した状態を有する前記参加者の数が第二の閾値を超えない場合は、前記離脱した状態を有する前記参加者にのみ警告を与えること、及び
    前記集団関与状態に従って、ミーティング室のシステムに環境的フィードバックを提供することを含み、
    前記プロセッサーは、
    前記2人以上の参加者の各々についての前記時系列の骨格データを前記複数の体位識別子に基づいて分類する際に、
    前記時系列の骨格データに最大平均差異(MMD)基準を適用し、連続するジェスチャーにおける変化点をジェスチャー遷移の初期推定切断部として検出し、
    運動学的拘束を用いて前記初期推定切断部を正確なジェスチャー遷移位置に修正し、
    確率密度推定を用いて2つの前記切断部間の手の動きを推定し、意図しない動作及び非ジェスチャーセグメントを除去することを特徴とするシステム。
  19. 前記フィードバックは、一定の時間フレームの間の前記参加者の前記態度に基づいて与えられることを特徴とする請求項18に記載のシステム。
  20. 前記第一の閾値は前記第二の閾値よりも高いことを特徴とする請求項18に記載のシステム。
  21. 前記離脱した状態を有する前記参加者の数が前記第一の閾値を超えた場合に、前記ミーティングをサポートする環境的フィードバックが提供されることを特徴とする請求項18に記載のシステム。
  22. 前記集団関与状態における変化が第三の閾値よりも大きい場合に前記環境的フィードバックが提供されることを特徴とする請求項18に記載のシステム。
  23. 前記2人以上の参加者についてのオーディオデータストリームを捕捉するように構成さ
    れたオーディオデバイスを備え、
    前記プロセッサーは、前記2人以上の参加者についての前記オーディオデータストリームにおいて検出された発言に基づき、前記個別関与スコアに発言識別子を加えるように構成されていることを特徴とする請求項18に記載のシステム。
  24. 前記2人以上の参加者についての重みデータストリームであって、椅子の上の前記2人以上の参加者の各々の重み分布に対応する前記重みデータストリームを捕捉する重みセンサーを備え、
    前記プロセッサーは、前記2人以上の参加者の各々の前記重み分布に基づき、前記個別関与スコアに重み分布識別子を加えるように構成されていることを特徴とする請求項23に記載のシステム。
  25. リアルタイムで前記フィードバックを提供するように構成された、オーディオデバイス、ビジュアルデバイス又はウェアラブルデバイスを備えることを特徴とする請求項24に記載のシステム。
JP2016205763A 2015-10-30 2016-10-20 ユーザー状態検出による集団相互作用の方法及びシステム Active JP6772023B2 (ja)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
US201562249118P 2015-10-30 2015-10-30
US62/249,118 2015-10-30
US201662301100P 2016-02-29 2016-02-29
US62/301,100 2016-02-29

Publications (2)

Publication Number Publication Date
JP2017123149A JP2017123149A (ja) 2017-07-13
JP6772023B2 true JP6772023B2 (ja) 2020-10-21

Family

ID=57838102

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016205763A Active JP6772023B2 (ja) 2015-10-30 2016-10-20 ユーザー状態検出による集団相互作用の方法及びシステム

Country Status (3)

Country Link
US (1) US9800834B2 (ja)
EP (1) EP3163507A1 (ja)
JP (1) JP6772023B2 (ja)

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10116801B1 (en) * 2015-12-23 2018-10-30 Shoutpoint, Inc. Conference call platform capable of generating engagement scores
US10382722B1 (en) 2017-09-11 2019-08-13 Michael H. Peters Enhanced video conference management
US11290686B2 (en) * 2017-09-11 2022-03-29 Michael H Peters Architecture for scalable video conference management
US11785180B2 (en) 2017-09-11 2023-10-10 Reelay Meetings, Inc. Management and analysis of related concurrent communication sessions
US11122240B2 (en) 2017-09-11 2021-09-14 Michael H Peters Enhanced video conference management
JP7110568B2 (ja) * 2017-09-19 2022-08-02 富士フイルムビジネスイノベーション株式会社 行動推定装置及び行動推定プログラム
US11837233B2 (en) * 2018-01-12 2023-12-05 Sony Corporation Information processing device to automatically detect a conversation
JP6867971B2 (ja) * 2018-03-26 2021-05-12 株式会社 日立産業制御ソリューションズ 会議支援装置及び会議支援システム
US11037557B2 (en) 2018-08-24 2021-06-15 International Business Machines Corporation Cognitive contextual conversation side topics
JP6997733B2 (ja) * 2019-02-20 2022-01-18 Kddi株式会社 情報処理装置、情報処理方法、及びプログラム
US11455599B2 (en) * 2019-04-02 2022-09-27 Educational Measures, LLC Systems and methods for improved meeting engagement
US10838881B1 (en) * 2019-04-26 2020-11-17 Xio Research, Inc. Managing connections of input and output devices in a physical room
US11093903B2 (en) * 2019-05-20 2021-08-17 International Business Machines Corporation Monitoring meeting participation level
US11652875B2 (en) * 2019-09-30 2023-05-16 Salesforce, Inc. Dynamic user integration in group-based communication systems
US20220141266A1 (en) * 2020-11-02 2022-05-05 Virtual Sapiens Inc. System and method to improve video conferencing using presence metrics
US20230239366A1 (en) * 2022-01-21 2023-07-27 Avaya Management L.P. Systems and methods for determining a communication load

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006323547A (ja) * 2005-05-17 2006-11-30 Fuji Xerox Co Ltd 情報処理装置、情報処理方法及びプログラム
JP2011081504A (ja) * 2009-10-05 2011-04-21 Hitachi Ltd 会議支援システムおよびプログラム
US8670018B2 (en) * 2010-05-27 2014-03-11 Microsoft Corporation Detecting reactions and providing feedback to an interaction
US8448056B2 (en) * 2010-12-17 2013-05-21 Microsoft Corporation Validation analysis of human target
US9152376B2 (en) * 2011-12-01 2015-10-06 At&T Intellectual Property I, L.P. System and method for continuous multimodal speech and gesture interaction
US20130205314A1 (en) * 2012-02-07 2013-08-08 Arun Ramaswamy Methods and apparatus to select media based on engagement levels
US20140145936A1 (en) * 2012-11-29 2014-05-29 Konica Minolta Laboratory U.S.A., Inc. Method and system for 3d gesture behavior recognition
US8769557B1 (en) * 2012-12-27 2014-07-01 The Nielsen Company (Us), Llc Methods and apparatus to determine engagement levels of audience members
WO2014110598A1 (en) * 2013-01-14 2014-07-17 Massively Parallel Technologies, Inc. System and method for determining engagement of audience members during a lecture
US20160234551A1 (en) * 2013-12-02 2016-08-11 Dumbstruck, Inc. Video reaction processing
US9426421B2 (en) * 2014-09-05 2016-08-23 Avaya Inc. System and method for determining conference participation
US9639770B2 (en) * 2015-03-26 2017-05-02 Konica Minolta Laboratory U.S.A., Inc. System and method for improving communication productivity

Also Published As

Publication number Publication date
EP3163507A1 (en) 2017-05-03
US20170127021A1 (en) 2017-05-04
US9800834B2 (en) 2017-10-24
JP2017123149A (ja) 2017-07-13

Similar Documents

Publication Publication Date Title
JP6772023B2 (ja) ユーザー状態検出による集団相互作用の方法及びシステム
Kessous et al. Multimodal emotion recognition in speech-based interaction using facial expression, body gesture and acoustic analysis
JP6467965B2 (ja) 感情推定装置及び感情推定方法
Sebe et al. Emotion recognition based on joint visual and audio cues
JP2021057057A (ja) 精神障害の療法のためのモバイルおよびウェアラブルビデオ捕捉およびフィードバックプラットフォーム
Beyan et al. Detecting emergent leader in a meeting environment using nonverbal visual features only
JP5437297B2 (ja) 対話状態推定装置、方法、及びプログラム
JP2004112518A (ja) 情報提供装置
Zhang et al. Emotion detection using Kinect 3D facial points
Gorga et al. Conversation scene analysis based on dynamic bayesian network and image-based gaze detection
JP2018032164A (ja) 面接システム
JP2018073204A (ja) アクション指示プログラム、アクション指示方法及び画像生成装置
EP3454332A1 (en) Control device, control method, and computer program
US20170301037A1 (en) Group discourse architecture
JP2023075197A (ja) 反応解析システムおよび反応解析装置
JP2018049481A (ja) 情報処理装置、評価システムおよびプログラム
JP2017224166A (ja) 画像生成装置、画像生成プログラム及び画像生成方法
Celiktutan et al. Continuous prediction of perceived traits and social dimensions in space and time
EP3454334A1 (en) Control device, control method, and computer program
Hradis et al. Voice activity detection from gaze in video mediated communication
JP2009042910A (ja) 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム
Otsuka Multimodal conversation scene analysis for understanding people’s communicative behaviors in face-to-face meetings
JP2023015068A (ja) 感情解析システムおよび感情解析装置
JP6859641B2 (ja) 評価システム、情報処理装置およびプログラム
Haider et al. Improving Response Time of Active Speaker Detection Using Visual Prosody Information Prior to Articulation.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20190326

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20200423

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20200623

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200911

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200923

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200930

R150 Certificate of patent or registration of utility model

Ref document number: 6772023

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150