JP2023076426A

JP2023076426A - 技術的知識獲得のための機械学習システム

Info

Publication number: JP2023076426A
Application number: JP2023019137A
Authority: JP
Inventors: アチャリャギリッシュ; Acharya Girish; ヤーナルルイーズ; Yarnall Louise; ロイアニルバン; Anirban Roy; ベッセルミヒャエル; Michaelwessel; ヤオイー; Yao Yi; ジェイ．バーンズジョン; J Byrnes John; フライターグデイン; Freitag Dayne; ワイラーザカリー; Weiler Zachary; カルマーポール; Kalmar Paul
Original assignee: SRI International Inc; Stanford Research Institute
Current assignee: SRI International Inc
Priority date: 2019-12-23
Filing date: 2023-02-10
Publication date: 2023-06-01
Also published as: JP2021099810A; US20210192972A1

Abstract

【課題】実用的な用途を有する機械学習のコンピュータ関連分野に特定の技術的改善を提供する。【解決手段】この開示には、タスクを実行するために人間の知識を獲得するための機械学習技術が記載される。一例では、動画装置が、タスクを実行する第１のユーザの動画データを取得し、１つ又は複数のセンサが、タスクの実行中にセンサデータを生成する。音声装置が、タスクの実行を記述する音声データを取得する。演算処理エンジンが、機械学習システムを適用して、動画データを音声データとセンサデータとに相関させ、タスクを実行するための複数のステップのうちの同じステップを描写する動画データ、センサデータ及び音声データの一部を識別する。機械学習システムは、相関するデータをさらに処理して、タスクの実行を規定するドメインモデルを更新する。訓練ユニットが、ドメインモデルを適用して、タスクを実行するための訓練情報を生成する。出力装置が、タスクを実行するために第２のユーザを訓練する際に使用する訓練情報を出力する。【選択図】図２

Description

この開示は、機械学習システム、さらに具体的には、知識獲得のための機械学習に概ね関する。

職場では、訓練プログラムを使用して従業員を訓練し、従業員の役割での業績を向上させるための知識又はスキルを開発する。しかし、タスクが複雑になるほど、従業員にタスクの実行を首尾よく教示するために必要な訓練が増大する。非常に複雑なタスクを実行するために新たな従業員を訓練することには、費用と時間がかかることがある。別の例として、職場では、対象分野の専門家（ＳＭＥ）を用いて、特定のタスクを実行するように訓練生に教示する場合がある。ＳＭＥとは、特定の仕事、一連の作業、部門、機能、技術、機械、材料又は機器の種類について深く理解している個人であり、多くの場合、従業員又はコンサルタントである。典型的には、ＳＭＥは、経験と訓練を組み合わせて専門知識を育成する。これを発展させるのに、ＳＭＥは何年もかかる場合がある。

一部の職場では、ＳＭＥに訓練動画又は書面による指示ガイドを作成させて、従業員に特定のタスクを実行するように教示することにより、従業員を訓練する場合がある。しかし、動画及び指示ガイドには、従業員が質問することができないため、不利になる可能性がある。さらに、ＳＭＥは、重要な情報を誤って省略してしまうか、無意識のうちに省略してしまう可能性がある。さらに、グローバル企業では、従業員を訓練するためのマルチメディア技術マニュアルの作成に多大な時間と予算を費やしている。これは、目的の技能に、高度に専門化されたタスク、暗黙知又は複数の言語が含まれる場合、さらに高価になる可能性がある。別の例として、職場では、ＳＭＥがタスクを実行している間、従業員にＳＭＥを観察させる場合がある。ＳＭＥの観察、即ち、「シャドーイング」は、従業員にとっては価値がある可能性があるが、大規模な従業員群にとっては実施不可能であり、ＳＭＥの効率を損なう可能性がある。訓練動画に類似する方法では、ＳＭＥは、自らが実演しているタスクに関連し、微細ではあるが重要な詳細の口頭での説明を意図せず省略してしまう可能性がある。さらに、職場では、従業員が教室環境にて講習会に参加する場合があるが、そのような教室環境では、技術的なタスクに貴重な実地体験が提供されない場合がある。さらに、非常に複雑なタスクの場合、あるいは特殊な分野では、タスクを実行するための新たな従業員の訓練を支援するＳＭＥが多くない場合がある。

本開示には、タスクを実行するための人間の知識を獲得して、タスクを実行するために他の人を訓練するのに使用可能なドメインモデルを構築するか改良するための機械学習技術が概ね記載される。一例では、動画装置が、タスクを実行する第１のユーザの動画データを取得する。いくつかの例では、第１のユーザはタスクを実行するＳＭＥである。動画データは、第１のユーザの一人称視点の観点の動画データ及び／又は第１のユーザの三人称視点の観点の動画データなど、複数のカメラソースを含んでもよい。音声入力装置が、タスクの実行を記述する音声データを取得する。いくつかの例では、音声データは、タスクを実行している間の第１のユーザの行動の第１のユーザによる説話を含む。他の例では、音声データは、第１のユーザがタスクを実行していない間に第１のユーザがナレーションする、タスクを実行する方法の説話を含む。いくつかの例では、１つ又は複数のセンサが、第１のユーザによるタスクの実行中にセンサデータを生成する。いくつかの例では、センサデータは、第１のユーザがとった動き又は行動、第１のユーザとツール、ワークピースなどの１つ又は複数の物体との間の相互作用に関連する加速度計データ、圧力データ又は力データを含む。いくつかの例では、文書処理ユニットが、取扱説明書、部品リスト又は他の書面によるガイドなどから、タスクの実行を記述するテキストデータを取得してもよい。

いくつかの例では、演算処理エンジンが、収集されたデータ（例えば、動画データ、音声データ、センサデータ及び／又はテキストデータ）に機械学習システムを適用して、タスクの実行を規定するドメインモデルを更新する。本明細書に記載のように、タスクを、所与の目的を達成するために実施される複数のステップとして概念化してもよい。いくつかの例では、機械学習システムは、動画データにて認識された物体を音声データ及び／又はテキストデータ内の物体への参照のほか、センサデータ内の測定値と相関さることによってドメインモデルを更新し、その結果、タスクを実行するための複数のステップのうちの同じステップを記述する動画データの一部、音声データの一部、センサデータの一部及びテキストデータの一部を識別する。例えば、プレート上の圧力センサが、自身の動きを説明しているＳＭＥからの口頭での説明に加えて、ＳＭＥがプレートに加えている圧力の量を記録してもよい。訓練ユニットが、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成する。いくつかの例では、訓練ユニットは、訓練情報を保存する知識データベースを形成する。訓練情報は、例えば、互いに相互参照された動画データ、音声データ、センサデータ及びテキストデータを含み、その結果、第２のユーザが、概念、タスク又は副次的タスクによって知識データベースを検索して、第２のユーザの問い合わせに関連する訓練情報を取得してもよい。出力装置が、タスクを実行するために第２のユーザを訓練する際に使用する訓練情報を出力する。いくつかの例では、第２のユーザは初心者である。いくつかの例では、出力装置は、第２のユーザの一人称視点から、タスクの実行を描写する拡張現実動画の形態で訓練データを出力する。

本開示の技術は、実用的な用途を有する機械学習のコンピュータ関連分野に特定の技術的改善を提供する可能性がある。例えば、本明細書に記載の技術は、機械学習システムが、複雑なタスクを実行する第１のユーザの多様なデータソースを融合して、複雑なタスクを実行するように第２のユーザを訓練するのに有用な訓練情報を生成することを可能にしてもよい。例えば、本開示の技術は、機械学習システムが複雑なタスクを実行するＳＭＥからデータを獲得することを可能にし、その結果、他の人（初心者ユーザなど）が複雑なタスクを実行するのに有用な訓練資料を作成することができるようになる。さらに、本開示の技術は、機械学習システムが、タスクの説明を求められたときにＳＭＥにとって未知であるか、認識されていないか、主観的である可能性があるタスクをＳＭＥが実行するさまざまな態様を獲得することによって、主観的であるか伝達が困難である可能性があるタスクを実行する際の重要な情報を識別することを可能にしてもよい。このため、本開示の技術は、効率を高め、複雑なタスクを実行するための従業員の訓練のコストを削減する可能性がある、焦点を絞った経験的な訓練情報の作成を可能にする可能性がある。

一例では、本開示には、タスクを実行するための知識を獲得するためのシステムが記載される。このシステムは、タスクの実行を規定するドメインモデルと、タスクを実行する第１のユーザの動画データを取得するように構成された動画入力装置と、タスクの実行を記述する音声データを取得するように構成された音声入力装置と、タスクの実行中にセンサデータを生成するように構成された１つ又は複数のセンサと、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させ、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新するように構成された演算処理エンジンと、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、タスクを実行するために第２のユーザを訓練する際に使用する訓練情報を出力するように構成された出力装置と、を備える。

別の例では、本開示には、タスクを実行するための知識を獲得するための方法が記載される。この方法は、動画入力装置によって、タスクを実行する第１のユーザの動画データを取得するステップと、音声入力装置によって、タスクの実行を説明する音声データを取得するステップと、１つ又は複数のセンサによって、タスクの実行中にセンサデータを生成するステップと、演算処理エンジンによって、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させるステップと、演算処理エンジンによって、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新するステップと、訓練ユニットによって、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成するステップと、出力装置によって、タスクを実行するために第２のユーザを訓練する際に使用する訓練情報を出力するステップと、を含む。

別の例では、本開示には、命令を含む非一時的なコンピュータ可読媒体が記載される。この命令は、実施されると、処理回路に、タスクを実行する第１のユーザの動画データを取得させ、タスクの実行を説明する音声データを取得させ、タスクの実行中にセンサデータを生成させ、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させ、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新させ、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成させ、タスクを実行するために第２のユーザを訓練する際に使用する訓練情報を出力させるように構成される。

本開示の技術の１つ又は複数の例の詳細は、添付の図面及び以下の説明に記載されている。この技術の他の特徴、目的及び利点が、説明及び図面並びに特許請求の範囲から明らかになるであろう。

本開示の技術に従って訓練情報を生成するための例示的なシステムを示すブロック図。本開示の技術に従って訓練情報を生成するための例示的な計算システムを示すブロック図。本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャート。本開示の技術に従って訓練情報を生成するための例示的なシステムを示す図。本開示の技術に従って訓練情報を生成するための例示的なシステムを示す図。本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データの図。本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データの図。本開示の技術に従って生成された訓練情報を描写する例示的なユーザインターフェースの図。本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャート。

類似の参照文字が、図及び説明全体で類似の要素を指す。

知識の獲得とは、知識が暗黙知から形式知に変換される過程である。「暗黙」知又は「黙示的」知とは、ＳＭＥの純粋な才能又は蓄積された経験を通じて、特定の領域又は分野の制度的知識、あるいは特定の組織又は組織の領域に向けられた制度的知識を所有するＳＭＥの中に包含されるか、その中で実体化された知識の一種である。例えば、暗黙知の例には、きわめて差異の小さい（例えば、２人の別々のＳＭＥによる同一のタスクの実行の間の差がわずかな）聴覚、視覚、触覚、嗅覚、味覚又は他の感覚の知識など、説明が難しい知識、あるいは複数の異なる感覚領域で同時に発生する可能性があり、相互に関連している変化を含む知識が挙げられる。ＳＭＥには、自身が所有する暗黙知の全体を特定することができない場合がある。暗黙知とは対照的に、「明示」型又は形式知とは、人が容易に明確に表現するか、成文化するか、保存するか、アクセスする可能性のある知識である。ＳＭＥが形式知を他の人に容易に伝達する可能性があるのに対して、暗黙知は必ずしも容易に伝達できるとは限らない。後に使用するために暗黙知を迅速に獲得することができることには非常に価値があるであろう。本明細書に記載のように、形式知と暗黙知の両方を獲得して訓練情報を生成し、それによって知識獲得過程を高速化し、双方向マルチメディア取扱説明書を作成する能力を可能なものにするほか、人工知能（ＡＩ）及び／又は機械学習（ＭＬ）を適用することによってさまざまな言語で拡張現実コンテンツを提供することを可能にする技術について説明する。

従来、ＳＭＥが、知識を伝達する方法として、例えば、初心者などの他の人を訓練するために使用する可能性のある文書又は動画を作成する。この方法でコンテンツを作成するには、非常に時間がかかる。さらに、訓練生が大量の研修コンテンツ内で関連情報を見つけるのは難しい場合がある。本明細書に記載の技術は、システムがＳＭＥから暗黙知のほか、形式知も獲得することを可能にする。本明細書に記載の技術の例では、システムが、一人称視点の図と三人称視点の図の両方にて、ＳＭＥの活動（例えば、一連の保守作業、機械加工活動又は製作活動など）を獲得するための１つ又は複数の３Ｄ動画カメラを備える。そのようなシステムは、ＳＭＥが活動を実践するときの口述を獲得するように構成された１つ又は複数のマイクロフォンをさらに備える。続いて、例えば、ＡＩ及び／又はＭＬを使用する演算処理エンジンが、一連のステップを実施して、獲得されたデータを訓練情報に変換する。いくつかの例では、演算処理エンジンは、ＡＩを使用してデータに設計パターンを適用し、活動（本明細書では「タスク」とも呼ばれる）を、活動を実施するための１つ又は複数のステップに一般化する。さらに、演算処理エンジンは、ＡＩ及び／又はＭＬを使用して、明確に規定された過程にてＳＭＥを案内し、その結果、ＡＩ及び／又はＭＬが能動的学習過程を支援してもよい。いくつかの例では、システムは、訓練指向の情報を引き出すためにＳＭＥに提起される可能性のある一連の質問を生成する。例えば、システムはＳＭＥに問い合わせを実施して、発表の目的を述べたり、活動の簡単な説明を提供したり、及び／又は過程を説明したり、及び／又は実演する前に過程の最終目標を設計したりしてもよい。さらに、システムは、通常の手順からの任意の逸脱の説明と、そのような逸脱の理由とについて、ＳＭＥに問い合わせてもよい。

いくつかの例では、本明細書に記載のシステムの演算処理エンジンは、ＡＩを適用して、異なる角度での複数のカメラからの動画内の情報を理解し、そのような情報から３Ｄモデルを構築してもよい。いくつかの例では、システムは、ＳＭＥの手作業で活動認識を実施してもよい。従来のシステムは、座る、立つ、歩くなどの包括的な人間の運動に焦点を合わせることがあるが、本明細書に記載のシステムでは、指の動き、手首の回転、ツールに加えられる手／指の圧力などのさらに細かい手の運動及び／又は工具の細かい動きを獲得してもよい。このため、本明細書に記載のそのようなシステムは、複数の３Ｄカメラを使用して、活動又はタスクの実行中にＳＭＥの近景を取得することによって、精度を改善する。いくつかの例では、システムは、ＳＭＥからの動作データを獲得する１つ又は複数のセンサであって、例えば、着用されるか着用可能な衣服に組み込まれたセンサをさらに備える。システムは、取得した音声データ及び動画データと併せてセンサを使用して、訓練生に示される可能性のあるＳＭＥの身ぶりと動きを獲得するのを支援する。例えば、タスクが特定の機械の保守を含む場合、システムは、物体を洗浄する、ボルトを緩める、ディスクを取り外す、ダイヤルゲージを使用して平坦度を確認するなど、非常に細かい手の操作を描写してもよい。いくつかの例では、システムは、ＳＭＥの視点からそのようなタスクの実行を獲得し、拡張現実コンテンツの形態で訓練生のタスクの実行を再生する。他の例では、演算処理エンジンはＡＩの有無にかかわらずＭＬを使用して、動画源及び音声源からデータを解読し、情報を獲得する。

いくつかの例では、演算処理エンジンは、ＡＩ及び／又はＭＬ構成要素を適用して、ＳＭＥによるナレーションのほか、動画データ、音声データ又はセンサデータを介して取得された視覚的実体、行動及び概念を統合する。本明細書に記載するようなシステムでは、最小限の訓練例を用いて、音声データ、例えば、タスクに関連するＳＭＥによる口述から情報を抽出してもよい。本明細書に記載するようなシステムではこのほか、タスクに関連するドメイン文書から取得したテキストデータを、利用可能な場合には、使用するほか、タスクのそのような文書化が存在しない場合は規則に基づく手法を適用してもよい。いくつかの例では、本明細書に記載するようなシステムでは、ＳＭＥによる説話形式の説明又は口述などの音声データを、さまざまな順序で、タスクを実行するＳＭＥの動画データの分析と融合させる。さらに、ＳＭＥは、いつでも（例えば、タスクの実行前、実施中又は実施後に）行動関連情報のそのような説話を提供してもよい。ＳＭＥが動画記録に口述を組み入れる場合、本明細書に記載のシステムは、動画データに描写された物体を、音声記録を介して説明されているそのような物体への参照に相関させてもよい。例えば、システムは、音声データから、特定の手順について、ＳＭＥが物体の平坦度測定値が４ミクロン以内であることを保証するというＳＭＥによる発言を識別する。音声データには、ＳＭＥが検査操作を実施する前、ＳＭＥによる検査操作の実施中又はＳＭＥが検査操作を実施した後に、この発言が含まれてもよい。本明細書に記載するようなシステムでは、ＳＭＥによる発言と動画データにて認識された物体との間の相関関係を識別し、関連する発言が音声データにて発生する期間又は関連する物体が動画データにて識別される期間に関係なく、複数の情報源を調整する。

別の例では、システムは、動画データに描写された１つ又は複数の物体に対して第１のユーザがとった行動と、１つ又は複数のセンサを介して取得された１つ又は複数の測??定値との間の相関を識別してもよい。例えば、システムは、動画データに描写された行動を、第１のユーザが使用したツールから感知され、動画データにて１つ又は複数の物体が識別される期間と同時に生成される加速度計、圧力又は力の測定値と相関させてもよい。

いくつかの例では、演算処理エンジンは、ＡＩ及び／又はＭＬを適用して、他の価値のあるタスクを実行してもよい。例えば、本明細書に記載するようなシステムでは、ＡＩを使用して、タスク学習ステップを、一般化されたステップに変換するか、タスクの記述にて欠落した区分又は不明瞭な区分を識別してフラグを立ててもよい。例えば、本明細書に記載するようなシステムでは、タスクのための所与のドメインモデルに基づいて、欠落している情報を識別してもよい。一例として、システムは、機器の使用を較正し、機器の１つ又は複数の読み出しの範囲を検査することを目的とするタスクから開始してもよい。システムは、ＳＭＥからの口述を、タスクの目標、安全性、ＳＭＥによる現在の行動の補足説明など、さまざまなカテゴリに分類する。

本明細書に記載するようなシステムでは、最小限の訓練例によって動画データ内の物体を認識するために、物体認識を実施してもよい。本明細書に記載のシステムは、第１の動画内の物体を識別し、この知識を複数の後続の動画にわたって活用することによってこれを達成してもよい。いくつかの例では、本明細書に記載のシステムは、１つ又は複数の物体の近くで実施される複数の操作の認識を使用して、１つ又は複数の物体の識別の精度を高める。さらに、本明細書に記載のシステムは、タスクのドメインモデルを更新し、ドメインモデルを適用して、タスクを実行するために第２のユーザが使用する訓練情報を生成する。いくつかの例では、システムは、ＳＭＥから取得した音声データ又はテキストデータを第１の言語（例えば、日本語）で使用し、タスクを実行するために第２のユーザを訓練する際に使用する第２の言語（例えば、英語）で訓練情報を生成してもよい。このため、本明細書に記載するようなシステムでは、会社が作成したか、外部情報源から入手可能な既存の文書を活用して、ＳＭＥと言語を共有しないユーザを訓練するための有用な用語に到達してもよい。いくつかの例では、本明細書に記載の開示の技術は、従来の知識獲得技術よりも３倍以上も知識獲得を高速化する場合がある。

図１は、本開示の技術に従って訓練情報を生成するための例示的なシステム１００を示すブロック図である。システム１００は、１つ又は複数の動画装置１０６、１つ又は複数の音声装置１０８、１つ又は複数のセンサ１２０、機械学習システム１１２、ドメインモデル１１４及び知識データベース１１６を備える。

本開示の技術によれば、第１のユーザ１０２が、タスク（例えば、活動）を実行する。いくつかの例では、第１のユーザ１０２は、タスクを実行するＳＭＥである。タスクは、例えば、産業機械の保守又は洗浄を実施するタスク、産業機械を使用して機械部品、消費財又は芸術品を機械加工するか製造するタスク、楽器を用いた演奏を伴うタスク、あるいは本明細書に明示的に記載していない練習、訓練又は専門知識を必要とする任意の他のタスクであってもよい。動画装置１０６は、タスクを実行する第１のユーザ１０２の動画データ１０７を生成する。音声装置１０８は、タスクの実行を記述する音声データ１０９を生成する。さらに、センサ１２０は、タスクの実行のセンサデータ１２１を生成する。計算システム１３０の機械学習システム１１２は、動画データ１０７、音声データ１０９及びセンサデータ１２１のほか、ドメイン文書１０４を受信し、データ１０４、１０７、１０９及び１２１から取得したデータを処理して、ドメインモデル１１４を更新する。これは、タスクの実行を規定する。演算処理エンジン１３０が、ドメインモデル１１６を適用して、タスクを実行するための訓練情報１１７を生成し、訓練情報１１７を知識データベース１１６に保存する。第２のユーザ１１８が、知識データベース１１６に保存された訓練情報１１７にアクセスして、タスクを実行する際に第２のユーザ１１８を訓練してもよい。

図１に描写するように、動画装置１０６は、タスクを実行する第１のユーザ１０２の動画データ１０７を生成し、そのような動画データ１０７を機械学習システム１１２に提供する。動画データ１０７は複数のカメラソースを含んでもよい。例えば、動画装置１０６は第１の動画装置及び第２の動画装置を含む。第１の動画装置は、第１のユーザ１０２の一人称視点の観点からタスクを実行する第１のユーザ１０２の動画データを取得するように構成される。第２の動画装置は、第１のユーザ１０２の三人称視点の観点からタスクを実行する第１のユーザ１０２の動画データを取得するように構成される。他の例では、動画装置１０６は、第１のユーザ１０２の一人称視点の観点に位置決めされた複数の動画装置のほか、第１のユーザ１０２のさまざまな三人称視点の観点に位置決めされた（例えば、第１のユーザ１０２がタスクを実行する部屋又は環境でのさまざまな異なる位置又は姿勢の）複数の動画装置を備えてもよい。いくつかの例では、動画データ１０７は、表面のきわめて近傍の３Ｄ変化、ワークピースの色の機械視覚を含む。複数の視点から複数のカメラを使用することにより、以下でさらに詳細に説明するように、環境、ツール又はワークピースとの第１のユーザ１０２の相互作用を理解する際に、機械学習システム１１２にとっていっそう包括的でいっそう有益な動画データ１０７の作成が可能になる。

各動画装置１０６は、動画装置１０６の姿勢から複数の２次元（２Ｄ）フレームを作成する撮像装置の一例である。いくつかの例では、動画装置１０６は、情景に対して２Ｄ画像又は３Ｄ画像を生成する別のタイプの撮像装置であってもよく、画像データのストリームを生成する動画カメラ、レーザスキャナ又は他の光学装置、環境内の特徴の範囲を示す画像データを生成する深度センサ、３Ｄ情報を生成するための複数のカメラを有する立体視システム、ドップラーレーダ又はその他の撮像装置であってもよい。いくつかの例では、動画装置１０６は３次元（３Ｄ）カメラを備える。そのような３Ｄカメラは、異なる角度に位置決めされた２つ以上の撮像装置を使用して３Ｄ動画を記録して、複数の姿勢から、複数の次元にて動画データを取得することができる。動画装置１０６によって生成されたフレームは、動画ストリームのフレームなどとして、要求に応じて定期的に生成された２次元画像を表してもよい。このような２Ｄフレームは、さまざまな解像度のものであってもよく、システム１００のさまざまなユニットによって処理され得るさまざまなフォーマットで生成されてもよい。

音声装置１０８は、タスクの実行を記述する音声データ１０９を生成し、そのような音声データ１０９を機械学習システム１１２に提供する。いくつかの例では、音声データ１０９は、タスクを実行している間の第１のユーザの行動を記述する、第１のユーザ１０２による説話を含む。他の例では、音声データ１０９は、例えば、タスクを実行する前の第１のユーザ１０２の最初の面談中、あるいはタスクを実行した後の第１のユーザ１０２の面談後など、第１のユーザがタスクを実行していない間にタスクを実行する方法を記述する、第１のユーザ１０２による説話を含む。音声装置１０８の一例には、ダイナミックマイクロフォン、コンデンサーマイクロフォン又は接触型マイクロフォンなどのマイクロフォンが挙げられる。しかし、本開示の技術は、本明細書で明示的に記載していないタスクの実行中に音声を取得するか録音するために他の装置を使用してもよい。

センサ１２０は、タスクの実行のセンサデータ１２１を生成する。センサ１２０は、例えば、１つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ１２０は、タスクの実行中に、第１のユーザ１０２、第１のユーザ１０２の作業空間、あるいは１つ又は複数のツール又はワークピースなど、第１のユーザ１０２が相互作用する１つ又は複数の物体から取得したセンサデータを生成する。いくつかの例では、センサデータ１２１は、第１のユーザ１０２の微小移動又は行動のうちの少なくとも１つに関連するデータを含む。いくつかの例では、センサデータ１２１は、タスクの実行中に第１のユーザ１０２が相互作用する１つ又は複数の物体に関連するデータを含む。いくつかの例では、センサデータ１２１は、第１のユーザの１つ又は複数の指又は手の動き、第１のユーザの手首の回転又は１つ??又は複数の物体に加えられる第１のユーザの手の圧力又は指の圧力に関連するデータを含む。いくつかの例では、センサデータ１２１は、１つ又は複数のツールと１つ又は複数の物体との間の角度、１つ又は複数の物体にかかる圧力、１つ又は複数の物体の表面の特徴又は１つ又は複数の物体の加速のうちの１つ又は複数に関連するデータを含む。

例えば、センサ１２０は、第１のユーザ１０２が着用するか、第１のユーザ１０２が着用する物品、例えば、ユーザの指、手及び／又は腕の動作及び／又は力を検出する運動追跡手袋に組み込まれてもよい。いくつかの例では、センサ１２０は、第１のユーザ１０２によって使用される１つ又は複数のツール、例えば、ユーザが使用中のツールの動作及び力を検出するための１つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ１０２は、第１のユーザ１０２、第１のユーザ１０２の作業空間、あるいはユーザが表面に加えた力を検出するフォースパッド、例えば、作業面、ワークピース、ツール又は第１のユーザ１０２の加速度を検出する慣性測定ユニット（ＩＭＵ）など、第１のユーザ１０２が相互作用する物体に関連するデータを感知する外部センサである。いくつかの例では、センサ１０２は、第１のユーザ１０２の身体又は手の動きの３Ｄモデルの作成を可能にする加速度計を備えた着用可能な手袋を含む。

ドメイン文書１０４は、タスクの実行を記述するテキストデータを含む。ドメイン文書１０４の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト、不具合報告、機械情報又は他の書面によるガイドが含まれる。第１のユーザ１０２は、ドメイン文書１０４を演算処理エンジン１３０に提供してもよい。演算処理エンジン１３０は、テキスト認識を実施して、タスクの実行を記述するテキストデータを抽出し、そのようなテキストデータを機械学習システム１１２に提供する。

ドメインモデル１１４は、第１のユーザ１０２が実行するタスクのモデルを提供する。典型的には、ドメインモデル１１４は、第１のユーザ１０２からの知識を統合し、第１のユーザは、１人以上のＳＭＥであることがある。いくつかの例では、ドメインモデル１１４は、タスクの実行に関連する機械、技術及び工芸のドメインでのタスク及び／又は手順の技能を実施中の専門家の意思決定の基本モデルを迅速に形成するように構成された、第１のユーザ１０２との面談過程中に最初に生成される。いくつかの例では、面談過程は、タスクを実行するための段階的な過程、第１のユーザ１０２が遭遇する可能性のある問題、そのような問題の解決策、第１のユーザ１０２がタスクの実行中に遂行する技術、あるいは第１のユーザ１０２が注意を払うことが重要であると考えられる詳細を記述する第１のユーザ１０２による一人称の説話の形態をとってもよい。典型的には、面談は形式知と暗黙知の両方を引き出すように構成される。例えば、面談は、形式知を引き出した後に暗黙知を引き出すための一連の追跡質問を続けるためにＳＭＥによって与えられたタスクの実行を記述する説話の形態をとってもよい。暗黙知の質問は、典型的には探索的なものである。例えば、暗黙知を引き出すように設計された探索的質問では、「ステップを開始する前に何を検査するのか？」又は「どのように進捗状況を測定するのか？」と尋ねる場合がある。第１のユーザ１０２が提供した回答に基づいて、追加の追跡質問を実施してもよい。

いくつかの例では、演算処理エンジン１３０は、タスクに関連する文書からドメインモデル１１４を最初に生成してもよい。いくつかの例では、演算処理エンジン１３０は、ドメインモデル１１４を生成するか更新するために、規則に基づく手法を適用してもよい。例えば、ドメインモデル１１４は、ツールを使用して測定を実施する前に、ツールの較正を実施しなければならないという規則を特定してもよい。演算処理エンジン１３０は、そのような規則を使用して、タスクを実行する際にステップを識別するか解明するか、あるいはドメインモデル１１４によってモデル化されたタスクの実行の際に欠落しているステップを識別してもよい。いくつかの例では、第１のユーザ１０２（例えば、１人以上のＳＭＥ）が、ドメインモデル１１４にて成文化されているそのような規則を提供する。

機械学習システムを使用して画像を処理し、画像に関するさまざまなデータを生成してもよい。例えば、機械学習システムが、画像を処理して、画像内の１つ又は複数の物体を識別してもよい。一部の機械学習システムが、畳み込みニューラルネットワークなどのニューラルネットワークによって生成されたモデルを適用して、画像を処理してもよい。機械学習システムでは、正確なモデルを構築するために大量の「訓練データ」が必要になる場合がある。しかし、一度訓練すると、機械学習システムは、以前は人間だけが実行することができると考えられていたさまざまな画像認識タスクを実行することができる可能性がある。例えば、機械学習システムを、警備、商業的用途、科学的及び動物学的な研究、在庫管理や品質管理などの工業的用途など、さまざまな用途で使用してもよい。

演算処理エンジン１３０は、機械学習システム１１２を収集データ（例えば、ドメイン文書１０４、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１）に適用して、タスクの実行を規定するドメインモデル１１４を更新するか改良する。いくつかの例では、ドメイン文書１０４、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１はベクトル及びテンソル（例えば、多次元配列）に変換される。ベクトル及びテンソルには、機械学習システム１１２が、線形代数的演算、非線形演算、あるいはこれとは別の計算演算などの数学演算を適用する場合がある。いくつかの例では、機械学習システム１０２は、深層学習の分野からの技術を適用する。いくつかの例では、機械学習システム１０２は、教師あり学習システム、教師なし学習システム、半教師あり学習システム又は強化学習システムの一例である。

機械学習システム１１２は、動画データ、テキストデータ、音声データ及び／又はセンサデータを含む（図１には描写していない）訓練サンプルデータを用いて機械学習システム１１２を訓練することによって初期化されてもよい。いくつかの例では、機械学習システム１１２は、そのような訓練サンプルデータを使用して、機械学習モデルを教示して、動画データ、テキストデータ、音声データ及び／又はセンサデータに描写された要素を識別し、機械学習システム１１２を訓練して、さまざまな要素に異なる重みを割り当て、そのような要素に異なる係数を適用することなどによってそのような要素が多かれ少なかれ互いに関連する可能性が高いかどうかを判定する。

いくつかの例では、機械学習システム１１２は、動画データ１０７にて認識された物体を、音声データ１０８内の物体への参照、ドメイン文書１０４から得られたテキストデータ及び／又はセンサデータ１２１に相関させることによってドメインモデル１１４を更新し、タスクを実行するための複数のステップのうちの同じステップを記述する動画データ１０７の一部、音声データ１０９の一部、テキストデータの一部及び／又はセンサデータ１２１の一部を識別する。いくつかの例では、機械学習システム１１２は、タスク学習を実施して、第１のユーザ１０２が実行するタスクを１つ又は複数のステップに一般化する。いくつかの例では、機械学習システム１１２は、１つ又は複数のテンプレートを適用して、第１のユーザ１０２によるタスクを１つ又は複数のステップに一般化してもよい。

演算処理エンジン１３０は、ドメインモデル１１６を適用して、タスクを実行するための訓練情報１１７を生成し、訓練情報１１７を知識データベース１１６に保存する。第２のユーザ１１８は、知識データベース１１６に保存された訓練情報１１７にアクセスして、タスクを実行する際に第２のユーザ１１８を訓練してもよい。訓練情報１１７は、例えば、第２のユーザの問い合わせに関連する訓練情報を取得するための概念、タスク又は副次的タスクによって第２のユーザが知識データベース１１６を検索し得るように相互参照された、タスクの実行の動画データ、音声データ、テキストデータ及びセンサデータの一部を含む。例えば、訓練情報１１７は、動画データ１０７にて認識された物体、動画データ１０７にて認識された物体を記述する音声データ１０９の一部、動画データ１０７にて認識された物体に関連するドメイン文書１０４の一部及び／又は動画データ１０７にて認識された物体に関連するタスクのステップの実行中にセンサ１２０から取得されたセンサデータを含んでもよい。いくつかの例では、訓練データ１１７は、第２のユーザ１１８のために個人化される。いくつかの例では、知識データベース１１６は、タスクを実行するために第２のユーザ１１８を訓練する際に使用するために、訓練情報１１７を第２のユーザ１１８に出力する。いくつかの例では、知識データベース１１６は、第２のユーザ１１８の一人称視点から、タスクの実行を描写する拡張現実動画の形態で訓練情報１１７を出力する。他の例では、知識データベース１１６は、タスクを実行するために第２のユーザ１１８を訓練するための対話型技術マニュアルの形態で訓練情報１１７を出力する。

いくつかの例では、知識データベース１１６は、第２のユーザ１１８から、タスクを実行するための命令又はタスクを実行するための複数のステップのうちの１つのステップに対する問い合わせを受信する。問い合わせに応答して、知識データベース１１６は、ドメインモデル１１４を適用して、タスクを実行するための訓練情報１１７又はタスクを実行するための複数のステップのうちのその１つのステップを生成し、そのような訓練情報１１７を第２のユーザ１１８に出力する。例えば、タスクのためにモデル化された手順及びシステム１００の環境から観察されたデータから導出されたドメインモデル１１４の現在の状態を前提として、演算処理エンジン１３０は、ドメインモデル１１４を使用して、第２のユーザ１１８によって実施される次のステップを予測するか識別し、そのような次のステップの実施を提案してもよい。このため、演算処理エンジン１３０は、ドメインモデル１１４を使用して、ＳＭＥがタスクを実行する際に実施するであろう次のステップを識別し、例えば、タスクを実行するために第２のユーザ１１８を訓練するためにそのようなステップを提案してもよい。さらに、演算処理エンジン１３０は、ドメインモデル１１４を使用して、例えば、初心者ユーザによって実施されたステップと、ＳＭＥによって実施されたステップとを比較して、初心者ユーザの実績を評価してもよい。

図２は、本開示の技術に従って訓練情報を生成するための例示的な計算システム２００を示すブロック図である。図２の例では、計算システム２００は、演算処理エンジン１３０、１つ又は複数の入力装置２５２及び１つ又は複数の出力装置２５４を備える。いくつかの例では、計算システム２００は、互いに相互接続された１つ又は複数の計算装置、例えば、１つ又は複数の携帯電話、タブレット型コンピュータ、ラップトップ型コンピュータ、デスクトップ型コンピュータ、サーバ、モノのインターネット（ＩｏＴ）装置などを備える。いくつかの例では、計算システム２００は単一の計算装置である。いくつかの例では、計算システム２００は、複数の計算装置にわたって分散され、コンピュータネットワークによって相互接続されている（例えば、クラウドベースのアプリケーションとして実装されている）。

図２の例では、計算システム２００は、１つ又は複数の入力装置２５２を介して演算処理エンジン１３０にユーザ入力を提供してもよい。計算システム２００のユーザが、１つ又は複数の入力装置２５２を介して計算システム２００に入力を提供してもよい。入力装置には、キーボード、マウス、マイク、タッチスクリーン、タッチパッド、あるいは１つ又は複数のハードウェアユーザインターフェースを介して計算システム１２０に結合された別の入力装置が含まれる場合がある。さらに、計算システム２００は、入力装置２５２を介して、さまざまな他の情報源からのデータ、例えば、以下でさらに詳細に説明するように、演算処理エンジン１３０のさまざまな構成要素によって処理される図１のドメイン文書１０４、図１の１つ又は複数の動画装置１０６を介した動画データ１０７、図１の１つ又は複数の音声装置１０８を介した音声データ１０９、あるいは図１の１つ又は複数のセンサ１２０を介したセンサデータ１２１を受信してもよい。

入力装置２５２は、演算処理エンジン１３０との接続を確立するためのハードウェア及び／又はソフトウェアを含んでもよい。いくつかの例では、入力装置２５２は、直接的な有線接続、インターネットなどのネットワーク、あるいは任意の公共通信ネットワーク又は私的通信ネットワーク、例えば、ブロードバンド、セルラー、Ｗｉ－Ｆｉ、及び／又は計算システムと、サーバと、計算装置との間でデータを送信できる他のタイプの通信ネットワークを介して、演算処理エンジン１３０と通信してもよい。入力装置２５２は、センサデータを受信するための任意の適切な通信技術を使用して、そのような接続を介してデータ、制御信号、コマンド及び／又は他の情報を送受信するように構成されてもよい。いくつかの例では、入力装置２５２及び演算処理エンジン１３０はそれぞれ、１つ又は複数のネットワークリンクを使用して同じネットワークに動作可能に結合されてもよい。入力装置２５２と演算処理エンジン１３０とを結合するリンクは、無線広域ネットワークリンク、無線ローカルエリアネットワークリンク、イーサネット（登録商標）、非同期転送モード（ＡＴＭ）又は他のタイプのネットワーク接続であってもよく、そのような接続は、無線及び／又は有線の接続であってもよい。

出力装置２５４には、ディスプレイ、音源カード、ビデオグラフィックスアダプタカード、スピーカ、存在感知スクリーン、１つ又は複数のＵＳＢインターフェース、動画及び／又は音声の出力インターフェース、あるいは触覚、音声、動画又は他の出力を生成することができる任意の他のタイプの装置が含まれてもよい。出力装置２５４には、液晶ディスプレイ（ＬＣＤ）、量子ドットディスプレイ、ドットマトリックスディスプレイ、発光ダイオード（ＬＥＤ）ディスプレイ、有機発光ダイオード（ＯＬＥＤ）ディスプレイ、陰極線管（ＣＲＴ）ディスプレイ、電子インク、あるいは触覚、音声及び／又は視覚の出力を生成することができるモノクロ、カラー又は他のタイプのディスプレイを含む技術を使用する出力装置として機能し得るディスプレイ装置が含まれてもよい。他の例では、出力装置２５４は、音源カード、ビデオグラフィックスアダプタカード、スピーカ、存在感知スクリーン、１つ又は複数のＢＳインターフェース、動画及び／又は音声の出力インターフェース、あるいは触覚、音声、動画又は他の出力を生成することができる任意の他のタイプの装置を介するなど、別の方法でユーザへの出力を生成してもよい。いくつかの例では、出力装置２５４には、１つ又は複数の入力装置としても１つ又は複数の出力装置としても動作するユーザインターフェース装置として機能し得る存在感知ディスプレイが含まれてもよい。いくつかの例では、出力装置が、有線又は無線の接続を介して別の計算装置にデータを送信するための１つ又は複数のインターフェースを備える。

演算処理エンジン１３０は、機械学習システム１１２、ドメインモデル１１４、テキスト認識ユニット２０２、音声認識ユニット２１２、動画認識ユニット２１４及び訓練ユニット２１０を備える。構成要素１１２、１１４、２０２、２１０、２１２及び２１４のそれぞれは、図１の類似の構成要素と実質的に類似の方法で動作してもよい。演算処理エンジン１３０は、処理回路２５６によって実行可能であり、記憶装置２５８に記憶されたソフトウェア、あるいはハードウェアとソフトウェアの組み合わせを表してもよい。そのような処理回路２５６は、マイクロプロセッサ、コントローラ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは同等の個別論理回路又は集積論理回路のうちの任意の１つ又は複数を備えてもよい。記憶装置２５８には、１つ又は複数のプロセッサに、命令に起因する行動を実施させるための実行可能な命令を含むランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電子的に消去可能なプログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリなどのメモリが含まれてもよい。

テキスト認識ユニット２０２は、ドメイン文書１０４を受信し、テキスト認識を実施して、機械学習システム１１２による使用に適したテキストデータを取得する。ドメイン文書１０４の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト、タスクの実行の際に使用されるツールそれぞれの取扱説明書、完成製品の回路図又は仕様、ＳＭＥによって提供された書面による説話又は他の書面によるガイドが挙げられる。いくつかの例では、テキスト認識ユニット２０２は、第１のユーザ１０２（例えば、ＳＭＥ）、（例えば、会社又はインターネットなどの外部情報源によって維持される）技術文書の保存場所、他のユーザなどからドメイン文書１０４を取得してもよい。いくつかの例では、テキスト認識ユニット２０２は、ドメイン文書１０４に対してテキスト認識を実施するための機械学習システムを実装する。いくつかの例では、テキスト認識ユニット２０２は、既製のテキスト認識ソフトウェアを使用して、ドメイン文書１０４上でテキスト認識を実施する。

動画認識ユニット２１４は、図１の動画装置１０６から動画データ１０７を受信し、物体認識を実施して、動画データ１０７に描写された１つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット２１４は、第１のユーザ１０２、第１のユーザ１０２が使用する１つ又は複数のツール、第１のユーザ１０２が相互作用する１つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット２１４は、動画データ１０７を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。例えば、動画認識ユニット２１４は、骨格姿勢データ、関節認識、手ぶり認識などはじめとする第１のユーザ１０２の人間姿勢データによって動画データ１０７に注釈を付ける。いくつかの例では、動画認識ユニット２１４は、動画データ１０７のフレームにて検出された人間の骨格又は関節の注釈などの物体検出データ、あるいは動画データ１０７のフレームにて認識されたツール、ワークピースなどの物体の注釈によって動画データ１０７に注釈を付ける。いくつかの例では、動画認識ユニット２１４は、動画データ１０７のフレームが特定の物体を描写する信頼スコア又は確率を判定する。例えば、動画認識ユニット２１４は、動画データ１０７内の各フレームに、フレーム内に描写されていると認識された１つ又は複数の物体によって注釈を付けてもよい。複数の視点から複数のカメラを使用することにより、環境、ツール又はワークピースとの第１のユーザ１０２の相互作用を理解する際に、機械学習システム１１２にとっていっそう包括的でいっそう有益な動画データ１０７の作成が可能になる。例えば、複数の角度からの動画データが、物体の隠蔽の事例を減らすことによって物体認識を支援し、ＳＭＥ、ツール又はワークピースによる動きの近景を複数の視点から提供してもよい。例えば、動画認識ユニット２１４は、第１の動画装置１０６からの動画データにて認識された物体を使用して、第２の動画装置１０６に存在する部分的に隠蔽された物体などの物体の識別を支援してもよい。さらに、動画認識ユニット２１４は、認識された一連の行動が２つの物体の非常に近くで実施されるときに、ＡＩを適用して物体の識別を円滑なものにしてもよい。動画認識ユニット２１４は、複数の視点からのそのような動画データ１０７を使用して、第１のユーザ１０２、ツール及びワークピースを含む環境の３Ｄモデルを構築するほか、第１のユーザ１０２とそのようなツール及びワークピースとの間の相互作用をモデル化する。いくつかの例では、動画認識ユニット２１４は、機械学習システムを使用して、動画データ１０７に対して人間の姿勢検出及び／又は物体認識を実施する。いくつかの例では、動画認識ユニット２１４は、既製の物体認識ソフトウェアを使用して、動画データ１０７に対して人間の姿勢検出及び／又は物体認識を実施する。

音声認識ユニット２１２は、図１の音声装置１０８から音声データ１０９を受信し、発話認識を実施して、音声データ１０９内に存在する１つ又は複数の物体又は概念への参照を識別する。いくつかの例では、音声データ１０９は、タスクを実行している間の第１のユーザの行動を記述する第１のユーザ１０２による説話を含む。他の例では、音声データ１０９は、例えば、タスクを実行する前又は後の第１のユーザ１０２の面談中など、第１のユーザがタスクを実行していない間にタスクを実行する方法を記述する第１のユーザ１０２による説話を含む。いくつかの例では、音声認識ユニット２１２は、機械学習を使用して、音声データ１０９に対して発話認識を実施する。いくつかの例では、音声認識ユニット２１２は、既製の音声認識ソフトウェアを使用して、音声データ１０９に対して発話認識を実施する。

機械学習システム１１２は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータを相関させて、タスクを実行するための複数のステップのうちの同じステップを記述する動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータの少なくとも一部を識別する。さらに、機械学習システム１１２は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータの相関部分を処理して、ドメインモデル１１４を更新する。本明細書に記載のように、タスクを、所与の目的を達成するために実施される複数のステップとして概念化してもよい。このため、ドメインモデル１１４は、タスクの目標を達成するために第１のユーザ１０２が実施する複数のステップ又は操作を規定することによって、タスクの実行を規定する。いくつかの例では、ドメインモデル１１４は、オントロジー、一群の関連する概念又は物体、実体、行動、事象又はタスクの実行に関連する規則（例えば、意味規則）のうちの少なくとも１つを規定することによって、タスクの実行を規定する。いくつかの例では、ドメインモデル１１４は、オントロジー、一群の関連する概念又は物体、実体、行動、事象又はタスクの実行に関連する規則（例えば、意味規則）のうちの少なくとも１つを規定することによって、タスクの実行をモデル化する。オントロジーとは、さまざまな物体間の意味関係であり、機械学習システム１１２によって作成されても、第１のユーザ１０２などのＳＭＥによって手動で作成されてもよい。機械学習システム１１２は、動画データ１０７、音声データ１０９及びドメイン文書１０４から取得されたテキストデータ内に存在する関係を識別することによって、一群の関連する用語、概念又は物体を検出するためにクラスタリングを実施してもよい。機械学習システム１１２は、動画データ１０７に対して実施される物体検出及びドメイン文書１０４から取得されたテキストデータからのテキストの意味抽出を使用することによって実体を識別してもよい。機械学習システム１１２は、動画データ１０７に対して活動シーケンス認識を実施し、ドメイン文書１０４から取得されたテキストデータからテキストの意味抽出を実施することによって、事象（例えば、実施されている行動）を識別してもよい。意味規則とは、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得したテキストデータを融合する（例えば、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得したテキストデータを処理して、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得したテキストデータ内に存在する実体と、物体と、行動との間の関係を識別する）ための規則である。いくつかの例では、意味規則は、第１のユーザ１０２などのＳＭＥによって手作りされている。

一例として、機械学習システム１１２は、動画データ１０７に描写された物体を識別し、音声データ１０９から物体への参照を識別し、動画データ１０７に描写された物体を音声データ１０９内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させてもよい。次に、機械学習システム１１２は、例えば、オントロジー、実体、行動、事象又はタスクの実行を規定するドメインモデル１１４の規則を規定するための相関を使用することによって、動画データ１０７から識別された物体と音声データ１０９から識別された物体への参照との相関に基づいてドメインモデル１１４を規定してもよい。

いくつかの例では、機械学習システム１１２は、共クラスタリングを適用して、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータのそれぞれからタスク名、物体、ツールなどのようなドメイン関連の意味情報を抽出して、ドメインモデル１１４の概念のオントロジーを構築するか拡張する。例えば、機械学習システム１１２は、共クラスタリングアルゴリズムなどの教師なし機械学習を適用して、一群の関連する概念及び用語を検出してもよい。

いくつかの例では、機械学習システム１１２は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得したテキストデータを相関させて、動画データ１０７、音声データ１０９、センサデータ１２１及びタスクを実行するための複数のステップのうちの同じステップを記述するドメイン文書１０４から取得されたテキストデータの少なくとも一部を識別する第１の機械学習システムを実装する。例えば、第１の機械学習システムは、動画データ１０７の少なくとも一部から、タスクを実行する際に使用される１つ又は複数の物体を識別する。第１の機械学習システムは、音声データ１０９の少なくとも一部から、タスクを実行する際に使用される１つ又は複数の物体への参照を識別する。第１の機械学習システムは、センサデータ１２１の少なくとも一部から、タスクを実行する際に使用される１つ又は複数の物体の１つ又は複数の物理的測定値を識別する。第１の機械学習システムは、動画データ１０７から識別された１つ又は複数の物体を、音声データ１０９から識別された１つ又は複数の物体への参照及びセンサデータ１２１から識別された１つ又は複数の物体の物理的測定値に相関させる。

別の例として、機械学習システム１１２は、相関する動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータを処理して、タスクの実行を規定するドメインモデル１１４を更新する第２の機械学習システムを実装する。例えば、第２の機械学習システムは、動画データ１０７と、音声データ１０９と、センサデータ１２１と、ドメイン文書１０４から取得されたテキストデータとの間の相関に基づいて、オントロジー、実体、行動、事象、あるいはドメインモデル１１４によって記述されたタスクの実行を規定する規則を規定する。

訓練ユニット２１０は、ドメインモデル１１４を適用して、訓練情報１１７を生成するか、タスクを実行するために別のユーザ（例えば、図１の第２のユーザ１１８）を訓練する際に使用する。訓練情報１１７は、例えば、タスク、タスクを構成する複数のステップのうちの１つ又は複数のステップ、あるいはタスクに関連する物体（例えば、ツール又はワークピース）に関連する、例えば、動画データ、音声データ、センサデータ及び／又はテキストデータを含み、各タイプのデータは、他の各タイプのデータと相互参照され、第２のユーザが概念、タスク又は副次的タスクによって知識データベースを検索して、第２のユーザの問い合わせに関連する音声、動画、センサ又はテキストの情報を取得する。

いくつかの例では、訓練ユニット２１０は、出力装置２５４を介して、訓練情報１１７を図１の知識データベース１１６に出力して、１人以上のユーザが使用する訓練情報の保存場所を作成する。いくつかの例では、訓練ユニット２１０は、出力装置２５４を介して、訓練情報１１７を、例えば、図１の第２のユーザ１１８に出力して、タスクを実行するために第２のユーザ１１８を訓練する。

個人化ユニット２０４が、上記の技術を使用して図１の第１のユーザ１０２から取得した訓練情報を、第２のユーザ１１７の個人化された訓練情報に変換する。一例として、訓練ユニット２１０は、図１の第１のユーザ１０２の第１の言語の訓練情報を取得する。個人化ユニット２０４は、第１のユーザ１０２の第１の言語の訓練情報から、第２のユーザ１１８の第２の言語の訓練情報１１７を生成する。これは、タスクを実行するために第２のユーザ１１８を訓練するのにいっそう有用である場合がある。いくつかの例では、個人化ユニット２０４は、異なる言語で会社が作成したドメイン文書１０４を活用して、タスクを規定する際にドメインモデル１１４の要素に適用され得る用語を判定してもよい。いくつかの例では、個人化ユニット２０４は、既製の翻訳ツールを使用して、訓練情報１１７を第１の言語から第２の言語に翻訳するのを支援してもよい。

訓練マニュアル生成ユニット２０６は、上記の技術を使用して図１の第１のユーザ１０２から取得した訓練情報を、タスクを実行するために第２のユーザ１１８の訓練で使用する訓練マニュアルに変換する。いくつかの例では、そのような訓練マニュアルはテキスト文書であってもよい。いくつかの例では、そのような訓練マニュアルは、テキスト、音声及び／又は動画の情報の形態の双方向マルチメディアマニュアルであってもよい。このようなマニュアルと、第２のユーザ１１８は、いっそう包括的又は効果的な訓練体験を経験するように相互に作用してもよい。

拡張現実コンテンツユニット２０８は、上記の技術を使用して図１の第１のユーザ１０２から取得した訓練情報を、タスクを実行するために第２のユーザ１１８の訓練で使用する拡張現実コンテンツに変換する。訓練ユニット２１０は、そのような拡張現実コンテンツを、例えば、第２のユーザ１１８が着用するヘッドマウントディスプレイ（ＨＭＤ）に出力して、ＳＭＥによるタスクの実行の経験的な一人称視点を提供してもよい。いくつかの例では、拡張現実コンテンツは、第１のユーザ１０２によるナレーションなどの音声データ１０９の関連部分と、タスクを実行するときの第１のユーザ１０２の視点などの動画データ１０７の関連部分とを含んでもよい。いくつかの例では、第２のユーザ１１８は、拡張現実コンテンツが第１のユーザ１０２によるタスクの実行を複製するセンサデータ１２１に基づいて力フィードバックを提供し得るように、力フィードバックを提供するコントローラと相互作用してもよい。

図３は、本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャートである。便宜上、図３は、図１及び図２に関して描写されている。

図３の操作に描写するように、システム１００は、タスクを実行する第１のユーザ１０２の能動的知識獲得を実施する（３０４）。第１のユーザ１０２の能動的知識獲得は、システム１００が、タスクの実行に関連するＳＭＥの形式知を獲得することを可能にするほか、タスクの実行に関連するＳＭＥのいくらかの暗黙知の獲得を可能にしてもよい。いくつかの例では、システム１００は、適切に構造化された面談の形態で能動的知識獲得を実施する。いくつかの例では、能動的知識獲得中に、演算処理エンジン１３０は、訓練指向の情報を引き出すために、第１のユーザ１０２への一連の質問を生成する。いくつかの例では、一連の質問には、タスクの目的、タスクの簡単な説明、一連の作業の最終目標及びタスクの実行の実演が含まれる。いくつかの例では、第１のユーザ１０２が正常な手順から逸脱する場合、演算処理エンジン１３０は、第１のユーザ１０２に、逸脱及び逸脱の目的などの説明を提供するように促す。

例えば、動画装置１０６は、タスクを実行する第１のユーザ１０２の動画データ１０７を取得する。動画データ１０７は、複数のカメラソースを含んでもよい。例えば、動画装置１０６は、第１の動画装置及び第２の動画装置を含む。第１の動画装置は、第１のユーザ１０２の一人称視点の観点から、タスクを実行する第１のユーザ１０２の動画データを取得するように構成される。第２の動画装置は、第１のユーザ１０２の第三者視点の観点から、タスクを実行する第１のユーザ１０２の動画データを取得するように構成される。

さらに、音声装置１０８は、タスクを実行する第１のユーザ１０２の音声データ１０９を取得する。能動的知識獲得の間、音声データ１０９は、タスクを能動的に実施している間の第１のユーザの行動を記述する第１のユーザ１０２による説話を含む。

さらに、センサ装置１２０は、タスクを実行する第１のユーザ１０２のセンサデータ１２１を取得する。センサ１２０は、例えば、１つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ１２０は、第１のユーザ１０２が着用するか、第１のユーザ１０２が着用する物品、例えば、ユーザの指、手及び／又は腕の運動及び／又は力を検出する運動追跡手袋に組み込まれる。いくつかの例では、センサ１２０は、第１のユーザ１０２が使用する１つ又は複数のツール、例えば、ユーザが使用中のツールの運動及び力を検出するための１つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ１０２は、第１のユーザ１０２、第１のユーザ１０２の作業空間、あるいはユーザが表面に加えた力を検出する力パッドなどの第１のユーザ１０２が相互作用する物体、例えば、作業面、ワークピース、ツール又は第１のユーザ１０２の加速度を検出するＩＭＤに関連するデータを感知する外部センサである。

システム１００は、タスクを実施する第１のユーザ１０２の受動的知識獲得をさらに実施する（３０４）。第１のユーザ１０２の受動的知識獲得は、システム１００が、タスクの実行に関連するＳＭＥの形式知と暗黙知の両方を獲得することを可能にする。例えば、受動的知識獲得の間に、音声装置１０８は、例えば、タスクを実行する前又は後の第１のユーザ１０２の面談中など、第１のユーザがタスクを実行していない間にタスクを実行する方法を記述する第１のユーザ１０２による説話を含む音声データ１０９を取得する。

さらに、演算処理エンジン１３０のテキスト認識ユニット２０２は、タスクの実行に関連するドメイン文書１０４の形態でテキストデータを受信する。ドメイン文書１０４の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト又は他の書面によるガイドが含まれる。テキスト認識ユニット２０２は、テキスト認識を実施して、ドメイン文書１０４から会社固有の用語を抽出する（３０２）。いくつかの例では、テキスト認識ユニット２０２は、テキスト認識を実施して、機械学習システム１１２による使用に適したテキストデータを取得する。演算処理エンジン１３０は、そのようなテキストデータによって機械学習システム１１２を訓練して、その結果、機械学習システム１１２を訓練してタスクを正確に識別し、第２のユーザ１１８のための有用なドメインモデル及び／又は訓練情報を洗練するために必要な訓練例の数を減らしてもよい。このため、本開示の技術を使用する機械学習システム１１２は、有用な出力（例えば、タスクを実行するために第２のユーザ１１８を訓練するための訓練情報１１７）を提供するために最小限の数の訓練サンプルデータのみを必要としてもよい。いくつかの例では、機械学習システム１１２は、タスクを実行するＳＭＥの３つの例から知識を獲得し、ＳＭＥから獲得した知識を、タスクを実行する初心者の例と比較した後、タスクを実行するために第２のユーザ１１８を訓練するための訓練情報１１７を生成することができる。

ドメイン文書１０４が特定のタスクに利用することができない例では、機械学習システム１１２は、代わりに、規則に基づく手法を適用してマルチモーダルデータを処理し、ドメインモデル１１４がタスクの実行をさらに正確に記述するようにドメインモデル１１４を更新してもよい。これとは別に、あるいはこれに加えて、機械学習システム１１２は、１つ又は複数のテンプレートを適用して、マルチモーダルデータを処理し、ドメインモデル１１４を更新するか改良してもよい。

音声認識ユニット２１２は、音声データ１０９を受信し、第１のユーザ１０２の口述から、タスクの実行に関連する第１の意味情報を抽出する（３０８）。例えば、音声認識ユニット２１２は、発話認識を実施して、音声データ１０９内に存在する１つ又は複数の物体又は概念への参照を識別する。いくつかの例では、第１のユーザ１０２の口述は、ワークピースが４ミクロン以内の平坦性を有することを確実なものにするための検査操作を実施するなどの機械保守活動の記述を含む。第１のユーザ１０２は、検査操作を実施する前、実施中又は実施した後に、この説話を提供してもよい。以下に説明するように、第１のユーザ１０２による検査操作のこの記述の時系列の発生に関係なく、機械学習システム１１２は、この記述を動画データ１０７から抽出されたこの検査操作の発生に相関させてもよい。いくつかの例では、音声認識ユニット２１２は、複雑な発話認識を実施して、複数の文にわたって散在する形式知及び暗黙知を抽出してもよい。

動画認識ユニット２１４は、動画データ１０７を受信し、動画データ１０７から、タスクの実行に関連する第２の意味情報を抽出する（３１０）。例えば、動画認識ユニット２１４は、物体認識を実施して、動画データ１０７に描写された１つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット２１４は、第１のユーザ１０２、第１のユーザ１０２が使用する１つ又は複数のツール、第１のユーザ１０２が相互作用する１つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット２１４は、動画データ１０７を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。いくつかの例では、動画認識ユニット２１４は、動画データ１０７に対して活動認識を実施する。活動認識は、典型的には、座る、立つ、歩くなどの人間の運動を識別するために実施されてもよい。図３の例では、動画認識ユニット２１４は、活動認識を実施して、洗浄する、ボルトを緩める、ディスクを取り外す、ダイヤルゲージを使用して平坦度を検査するなどの非常に細かい手の操作などの機械保守行動を識別する。いくつかの例では、動画認識ユニット２１４は、複雑な人間の姿勢及び／又は物体認識を実施して、複数の異なる動画ソースに散在する形式知及び暗黙知を抽出し、そのような知識を音声データ１０９から抽出された知識と相互参照してもよい。

機械学習システム１１２は、センサデータ１２１を処理して、センサデータ１２１から、タスクの実行に関連する第３の意味情報を抽出する（３０９）。例えば、機械学習システム１１２は、第１のユーザ１０２による微小移動又は運動、あるいは第１のユーザ１０２によるツール又はワークピースなどの１つ又は複数の物体との相互作用に対応するセンサデータ１２１の部分を識別してもよい。

機械学習システム１１２は、複数のモダリティからの情報を融合する（３１２）。例えば、機械学習システム１１２は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータを処理して、ドメインモデル１１４を更新する。ドメインモデル１１４は、第１のユーザ１０２が実行するタスクのモデルを提供する。いくつかの例では、ドメインモデル１１４は、特定の目標を達成するために実施される複数のステップとしてタスクをモデル化する。いくつかの例では、ドメインモデル１１４は、タスクの実行に関連するオントロジー、クラスター、実体、行動、事象又は規則（例えば、意味規則）のうちの少なくとも１つを規定することによってタスクをモデル化する。例えば、機械学習システム１１２は、動画データ１０７に描写された物体を識別し、音声データ１０９から物体への参照を識別し、動画データ１０７に描写された物体を音声データ１０９内の物体への参照に相関させることによって、動画データ１０７の一部を音声データ１０９の一部に相関させてもよい。次に、機械学習システム１１２は、例えば、オントロジー、実体、行動、事象、あるいはタスクの実行を規定するドメインモデル１１４の規則を規定するための相関を使用することによって、動画データ１０７から識別された物体と音声データ１０９から識別された物体への参照との相関に基づいて、ドメインモデル１１４を規定してもよい。

別の例として、機械学習システム１１２は、センサデータ１２１を処理して、さまざまなタイプの複数のセンサ１２０のそれぞれからのデータを、動画データ１０７及び／又は音声データ１０９と同期させる。例えば、機械学習システム１１２は、動画データ１０７に描写された第１のユーザ１０２の行動を識別し、動画データ１０７に描写された行動と同時に生成されたセンサデータ１２１の一部を識別し、動画データ１０７に描写された行動を、動画データ１０７に描写された行動と同時に生成されたセンサデータ１２１の部分に相関させることによって、動画データ１０７の一部をセンサデータ１２１の一部に相関させてもよい。一例では、機械学習システム１１２は、センサ１２０から、ワークピースの表面の変化を記述するセンサデータ１２１を受信する。さらに、機械学習システム１１２は、第１のユーザ１０２の人間の姿勢データによって注釈が付けられた動画データ１０７を受信する。機械学習システムは、センサデータ１２１及び動画データ１０７を処理して、ワークピースの表面の変化を、動画データ１０７の人間の姿勢データのほか、他の機械ログに描写された第１のユーザ１０２の身体の動きと相関させて、タスクを実行するための複数のステップのうちの１つ又は複数のステップを実施するために第１のユーザ１０２によって実施される物理的動きのモデルを構築する。

別の例として、機械学習システム１１２は、動画データ１０７及び音声データ１０９を処理して、動画データ１０７を音声データ１０９に相関させて、タスクを実行するための複数のステップのうちの１つのステップを描写する動画データ１０７の少なくとも一部と、タスクを実行するための複数のステップのうちの同じステップを記述する音声データ１０９の少なくとも一部とを識別する。例えば、機械学習システム１１２は、音声データ１０９から取得された第１の意味情報及び動画データ１０７から取得された第２の意味情報から、タスクを実行するための複数のステップのステップのうちの１つのステップを描写する動画データ１０７の少なくとも一部と、タスクを実行するための複数のステップのうちの同じステップを記述する音声データ１０９の少なくとも一部とを識別する。本明細書に記載のように、「意味情報」は、システム１００が、音声データ１０９、動画データ１０７、ドメイン文書１０４及びセンサデータ１２１などの環境から取得する、タスクの実行に関する意味のある情報を指す。例えば、機械学習システム１１２は、音声データ１０９及び動画データ１０７から取得されたそのような第１及び第２の意味情報から、文のタイプ（例えば、行動、警告、ツールのリスト、前提条件）のほか、行動文から派生した行動、物体又はツールなどの意味情報を識別してもよい。機械学習システム１１２は、例えば、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４からのそのような意味情報を融合して、タスクを実行するための一貫した一連の意味ステップを作成する。

いくつかの例では、演算処理エンジン１３０は、タスクを実行するための１つ又は複数のステップでの曖昧さ及び／又はタスクの実行での１つ又は複数の意味論的な差異又は不一致を識別する（３１４）。例えば、演算処理エンジン１３０は、例えば、第１のユーザ１０２によるタスクの実行の動画データ１０７と、第１のユーザ１０２によって提供されたタスクの実行の記述を含む音声データ１０９との間の不一致を識別してもよい。演算処理エンジン１３０は、そのような不一致又は差異の説明について第１のユーザ１０２に問い合わせてもよい。いくつかの例では、演算処理エンジン１３０は、タスクの目標を使用して、説明のために第１のユーザ１０２への問い合わせを生成する。例えば、演算処理エンジン１３０は、機器の使用が最初に較正を必要とし、機器の読み取りが常に検査する範囲を有することを認識してもよい。このため、第１のユーザ１０２が、機器を較正せずに機器の読み取りに依存する場合、演算処理エンジン１３０は、理由を説明するために第１のユーザ１０２への問い合わせを生成してもよい。演算処理エンジン１３０は、第１のユーザ１０２から受信した動画データ１０７と音声データ１０９との間の識別された意味論的差異の説明を使用して、ドメインモデル１１４を更新し、その結果、タスクの実行中にドメインモデル１１４の精度を高め、第１のユーザ１０２によって実施される行動のあらゆる曖昧さを低減してもよい。

いくつかの例では、システム１００は、タスクを実行する第１のＳＭＥの第１の動画データ、タスクの実行をナレーションする第１のＳＭＥの第１の音声データ、タスクを実行する第２のＳＭＥの第２の動画データ及びタスクの実行をナレーションする第２のＳＭＥの第２の音声データを取得することによって、第１のＳＭＥ及び第２のＳＭＥからタスクを実行するための知識を獲得してもよい。機械学習システム１１２は、タスクを実行する第１のＳＭＥの第１の動画データを、タスクの実行をナレーションする第１のＳＭＥの第１の音声データに相関させる。機械学習システム１１２は、タスクを実行する第２のＳＭＥの第２の動画データを、タスクの実行をナレーションする第２のＳＭＥの第２の音声データにさらに相関させる。機械学習システム１１２は、タスクを実行する各ＳＭＥの相関した動画データ及び音声データをさらに処理して、第１のＳＭＥによるタスクの実行と第２のＳＭＥによるタスクの実行との間の意味論的な差異又は不一致を識別する。演算処理エンジン１３０は、意味論的差異の説明について第１のＳＭＥ及び第２のＳＭＥに問い合わせ、演算処理エンジン１３０は、結果として生じる意味論的差異の説明によってドメインモデル１１４を更新してもよい。

いくつかの例では、システム１００は、タスクを実行するＳＭＥの第１の動画データ、タスクの実行をナレーションするＳＭＥの第１の音声データ、タスクを実行する初心者ユーザの第２の動画データ及びタスクの実行をナレーションする初心者ユーザの第２の音声データを取得することによって、第１のユーザ及び第２のユーザ（例えば、それぞれＳＭＥ及び初心者ユーザ）からタスクを実行するための知識を獲得してもよい。演算処理エンジン１３０は、上記の例と類似の方法で、ＳＭＥと第２のユーザとによるタスクの実行の間の意味論的な差異又は不一致を識別してもよい。さらに、訓練ユニット２１０は、ＳＭＥによるタスクの実行と第２のユーザによるタスクの実行との間の識別された意味論的差異を記述するフィードバックを生成してもよく、出力装置２５４は、表示のために第２のユーザに出力して、タスクの実行の際に第２のユーザを案内してもよい。

いくつかの例では、システム１００は、タスクを実行するＳＭＥの第１の動画データ、タスクの実行をナレーションするＳＭＥの第１の音声データ、タスクを実行する初心者の第２の動画データ及びタスクの実行をナレーションする初心者の第２の音声データを取得することによって、ＳＭＥである第１のユーザ及び初心者である第２のユーザからタスクを実行するための知識を獲得してもよい。演算処理エンジン１３０は、ＳＭＥによるタスクの実行と初心者によるタスクの実行との間の不一致又は差異を識別してもよい。さらに、演算処理エンジン１３０は、ＳＭＥによって実施される行動と初心者によって実施される行動との間の不一致又は差異の説明のためにＳＭＥに問い合わせを生成するほか、ＳＭＥから、ＳＭＥ又は初心者ユーザが犯した誤りの注釈を受信してもよい。いくつかの例では、演算処理エンジン１３０は、第１のＳＭＥ対第２のＳＭＥ対初心者ユーザのマップの差異を示す出力を生成してもよい。例えば、演算処理エンジン１３０は、第１のユーザと第２のユーザとの間の差異を示す１つ又は複数のマップを生成して、第１のユーザと第２のユーザのそれぞれによるタスクの実行の間の１つ又は複数の差異を視覚化してもよい。そのようなマップは、例えば、各ユーザによって加えられた圧力、各ユーザの手の動き、各ユーザの身体の動きなどを含んでもよい。そのようなマップは、ＳＭＥによるタスクの実行と初心者ユーザによるタスクの実行との間の差異を視覚化することを可能にし、初心者ユーザがタスクの実行を学習するのを支援するのに有益であってもよい。

システム１００は、上記で考察した曖昧さを説明するための問い合わせに応答して、例えば、第１のユーザ１０２から応答を受信してもよい。さらに、システム１００は、タスクの実行を考察するタスクの実行後の面談中に、ＳＭＥから音声／動画情報を受信してもよい。機械学習システム１１２は、受信した説明及び／又は面談後に基づいて、タスクのためのドメインモデル１１４を更新する（３１８）。訓練ユニット２１０は、データモデル１１４の意味情報を訓練情報１１７の形態で知識データベース１１６に保存する（３１６）。

いくつかの例では、訓練情報１１７が知識データベース１１６に保存された後、システム１００は、図３の上記の操作を繰り返して、能動的知識獲得及び受動的知識獲得を繰り返し実施してもよい。このようにして、システム１００は、既存の知識獲得情報を使用して、機械学習システム１１２の性能を改善し、知識データベース１１６の訓練情報１１７の精度及び詳細を向上させてもよい。

図４は、本開示の技術に従って訓練情報を生成するための例示的なシステム４００を示す図である。いくつかの例では、図４は、図３の複数のモダリティからの情報の融合４１４を描写する（３１２）。

図４に描写するように、動画装置１０６は、第１のユーザ１０２の広角の一人称視点を獲得するカメラ４０２と、ある位置から第１のユーザ１０２の左側への第１のユーザ１０２の三人称視点を獲得するカメラ４０４Ａと、ある位置から第１のユーザ１０２の右側への第１のユーザ１０２の第三者視点を獲得するカメラ４０４Ｂとを備える。

動画認識ユニット２１４は、カメラ４０２、４０４Ａ及び４０４Ｂから取得した動画データを受信し、物体認識を実施して、動画データに描写された１つ又は複数の物体を識別する。例えば、動画認識ユニット２１４は、カメラ４０２によって撮像された取扱説明書４０８と、カメラ４０４Ｂによって撮像された作業領域機械空間４１０とを識別する。さらに、動画認識ユニット２１４は、カメラ４０４Ａ及び４０４Ｂからの動画データを、第１のユーザ１０２の人間姿勢データ４１２を用いてラベル付けする。

機械学習システム１１２は、複数のモダリティからの情報を融合して、図１のドメインモデル１１４を更新する。例えば、図４に示すように、機械学習システム１１２は、カメラ４０２、４０４Ａ及び４０４Ｂから取得した動画データを、例えば、音声データ１０９、センサデータ１２１及び図１のドメイン文書１０４から取得したテキストデータを用いて処理して、ドメインモデル１１４を更新する。例えば、機械学習システム１１２は、動画データに描写された物体を識別し、音声データ１０９から物体への参照を識別し、動画データに描写された物体を音声データ１０９内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させる。次に、機械学習システム１１２は、例えば、オントロジー、実体、行動、事象、あるいはタスクの実行を規定するドメインモデル１１４の規則を規定するための相関を使用することによって、動画データから識別された物体と音声データ１０９から識別された物体への参照との相関に基づいてドメインモデル１１４を規定してもよい。

例示的な例として、動画認識ユニット２１４は、カメラ４０２、４０４Ａ及び４０４Ｂから取得された動画データから、人間姿勢データを検出（例えば、骨格検出及び／又は関節検出）し、物体検出を実施することによって物体を認識する。動画認識ユニット２１４は、行動シーケンス認識を実施して、認識された人間の姿勢のシーケンスに基づいて行動を検出する。いくつかの例では、動画認識ユニット２１４は、類似の行動間の非常に短い時間間隔を無視することによって、互いに時間的に近い類似の行動を分類する。いくつかの例では、動画認識ユニット２１４は、認識された行動のリストを生成し、その動画認識ユニット２１４が行動を正しく識別したという信頼性を生成する。いくつかの例では、音声認識ユニット２１２は、例えば、第１のユーザ１０２又はドメイン文書１０４からの説話情報を用いて、知識データベースの個体群の中で同等の名前に関して確認することによって、検出された物体又はツールを正規化してもよい。例えば、取扱説明書では部品を「ローラアッパー」と呼ぶのに対し、ＳＭＥが同じ部品を「アッパーローラ」と呼ぶ場合があり、あるいは２つの異なる文書では同じツールを「ダイヤルゲージ」又は「ダイヤルインジケータ」と呼ぶ場合がある。機械学習システム１１２は、ドメインモデル１１４のオントロジー知識を活用することによって、動画認識ユニット２１４によって取得された動画抽出結果の精度を高めて、その結果、不正確な仮説又は一貫性のない仮説を取り除いてもよい。例えば、機械学習システムは、行動、物体及びツール／機器を含む認識された行動シーケンスが一貫しているか、ドメインモデル１１４によって許可されているかどうかを判定してもよい。動画認識ユニット２１４によって、例えば、「ハンマーによる洗浄」として認識される行動は、不可能なものであり、機械学習システム１１２によって破棄されるであろう。さらに、機械学習システム１１２は、動画データ１０７からの長めの時間間隔の類似の行動を融合してもよい。

引き続き前述の例では、機械学習システム１１２は、音声データ１０９から取得された物体への１つ又は複数の参照が、動画データ１０７にて認識された物体に対応するかどうかを判定する。例えば、音声データ１０９の一部が行動、物体、ツール及び場所を記述し、音声データ１０９のその部分が動画データ１０７の一部の近傍にあり、動画データ１０７のその部分から抽出された意味情報が音声データ１０９の上記部分と一致する（例えば、行動、物体及びツールは、動画データ１０７の上記部分にて認識される）場合、機械学習システム１１２は、音声データ１０９の上記部分と動画データ１０７の上記部分との間の相関を形成する。

別の例として、音声データ１０９の一部が行動、物体、ツール及び場所を記述し、動画データ１０７の一部から抽出された意味情報が音声データ１０９のその部分と一致しない（例えば、行動、物体及びツールは、動画データ１０７のその部分にて認識されない）場合、機械学習システム１１２は、物体認識の信頼性に従って、動画データ１０７にて認識された物体を順番に検査する。音声データ１０９に記述された物体が、所定の閾値を超える確実性のレベルで動画データ１０７に現れる場合、機械学習システム１１２は、音声データ１０９の上記部分と動画データ１０７の上記部分との間の相関関係を形成する。

別の例として、音声データ１０９の一部が行動、物体、ツール及び場所を記述し、動画データ１０７から抽出された意味情報が音声データ１０９のその部分と一致しない（例えば、行動、物体及びツールが動画データ１０７のその部分では認識されない）が、動画データ１０７に現れる物体が高いレベルの確実性にて認識される場合、機械学習システム１１２は、物体が動画データ１０７にて正しく認識されたと判定し、機械学習システムは、ドメインモデル１１４を構築する際に動画データ１０７を使用する。

別の例として、音声データ１０９の一部が行動、物体、ツール及び場所を記述し、動画データ１０７から抽出された意味情報が音声データ１０９のその部分と一致しない（例えば、行動、物体及びツールが動画データ１０７のその部分では認識されない）が、動画データ１０７に現れる物体が低いレベルの確実性にて認識される場合、機械学習システム１１２は、物体が動画データ１０７にて正しく認識されない可能性があると判定し、演算処理エンジン１３０は、曖昧さを解決するために、第１のユーザ１０２（例えば、ＳＭＥ）への問い合わせを生成する。

別の例として、音声データ１０９の一部が行動、物体、ツール及び場所を記述しているが、音声データ１０９のその部分に対応する動画データ１０７の部分がない場合、機械学習システム１１２は、音声データ１０９の上記部分を、暗黙知を含むものとして取り扱う。次に、機械学習システム１１２は、ドメインモデル１１４を構築する際に音声データ１０９のこの部分を使用してもよい。

図５は、本開示の技術に従って訓練情報を生成するための例示的なシステム５００を示す図である。いくつかの例では、システム５００は、図１の知識データベース１１６の作成の例を示す。便宜上、図５は、図１及び図２に関して描写されている。

図５の例に描写するように、機械学習システム１１２は、複数のモダリティからの情報を融合して、ドメインモデル１１４を更新する。ドメインモデルから訓練情報１１７を取得して、知識データベース１１６内に保存してもよい。例えば、複数のモダリティは動画データ１０７を含んでもよい。この動画データからは、機械学習システム１１２が、タスクの実行に関連する活動、活動シーケンス、ツールなどの知識を獲得する。別の例として、複数のモダリティは、取扱説明書、ツールのリストなどを含むドメイン文書１０４を含んでもよい。ドメイン文書からは、機械学習システム１１２が、タスクに関連する一連の活動、予想される期間、労働者の専門知識などの知識を獲得する。別の例として、複数のモダリティは、（例えば、第１のユーザ１０２などのＳＭＥによるナレーションを介して提供された）音声データを含んでもよい。音声データからは、機械学習システム１１２が活動のおよその時系列又は順次のタイミング、活動の順序、測定、ツール、手順などの知識を獲得する。さらに別の例として、複数のモダリティは、（例えば、１つ又は複数の加速度計、圧力センサ、力センサ及び／又は運動センサによって提供される）センサデータ１２１を含んでもよい。このセンサデータからは、機械学習システム１１２が第１のユーザ１０２による手の動きなどの微小移動、第１のユーザ１０２の行動、ツール又はワークピースなどの１つ又は複数の物体に加えられる物理的力（例えば、回転力又は並進力）、あるいはワークピースの質感又は粗さなどの１つ又は複数の物体の表面特徴の知識を獲得する。機械学習システム１１２は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータを処理して、ドメインモデル１１４を更新する。訓練ユニット２１０は、ドメインモデル１１４を適用して、タスクの訓練情報１１７を生成する。訓練ユニット２１０は、知識データベース１１６の形態で保存する。このデータベースは、タスクの実行に関する訓練情報又はタスクを達成するための複数のステップのうちの１つ又は複数のステップの実施について訓練生によって問い合わせ可能である融合された知識データベースであってもよい。

図６は、本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データ６００の図である。いくつかの例では、図２の動画認識ユニット２１４は、１つ又は複数の動画装置１０６を介して取得された動画データ１０７を処理して、ラベル付き動画データ６００を生成する。図６に描写するように、ラベル付き動画データ６００は、例えば、図１の第１のユーザ１１８の骨格姿勢データ、関節認識、手ぶり認識などをはじめとする人間姿勢データ６０２によってラベル付けされた単一の動画フレームを含む。

図７は、本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データ７００の図である。いくつかの例では、図２の動画認識ユニット２１４は、１つ又は複数の動画装置１０６を介して取得された動画データ１０７を処理して、ラベル付き動画データ７００を生成する。図７に描写するように、ラベル付き動画データ７００は、例えば、図１の第１のユーザ１１８の骨格姿勢データ、関節認識、手ぶり認識などをはじめとする人間姿勢データ７０２によってラベル付けされた単一の動画フレームを含む。

図８は、本開示の技術に従って生成された訓練情報１１７を描写する例示的なユーザインターフェース８００の図である。訓練情報１１７は、例えば、図２の訓練ユニット２１０によって生成された訓練情報１１７である。図８の例に示すように、ユーザインターフェース８００は、動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４の一部などの複数のモダリティのデータの形態で訓練情報１１７を提示する。ここで、各タイプのデータは、タスクの実行での同じ物体、概念又はステップの存在に基づいて相互に関連付けられる。

例示的な例として、ユーザインターフェース８００は、ディスプレイ８０２、８０４、８０６、８０８、８１０、８１２及び８１４を備える。ディスプレイ８０２は、動画データ１０７の時系列グラフを描写する。ディスプレイ８０４は、動画データ１０７のそれぞれの部分に相関する音声データ１０７の一部（例えば、第１のユーザ１０２による説話）の転写を描写する。ディスプレイ８０６は、認識された行動シーケンス（例えば、タスクを実行するための複数のステップのうちの１つのステップ）に対応するものとして動画データ１０７の一部を識別する。ディスプレイ８０８は、ディスプレイ８０６によって識別される動画データ１０７のその部分について認識された行動シーケンスのラベルを描写する。ディスプレイ８１０は、認識された物体を描写するものとして動画データ１０７の一部を識別する。ディスプレイ８１２は、動画データ１０７に描写された作業空間内の認識された物体の場所を識別する。ディスプレイ８１４は、認識されたツールを描写するものとして動画データ１０７の一部を識別する。

ディスプレイ８０２、８０４、８０６、８０８、８１０、８１２及び８１４のそれぞれは、ドメイン文書１０４、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１によって通知される。いくつかの例では、図１のシステム１００は、演算処理エンジン１３０が動画データ１０７、音声データ１０９及び／又はセンサデータ１２１の一部を、時系列の時間の対応に基づいて相互に相関させ得るように、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１を同時に取得する。いくつかの例では、図１のシステム１００は、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１を非同期的に取得するか、異なる時間に取得し、その結果、演算処理エンジン１３０は、例えば、動画データ１０７にて認識された物体の認識、音声データ１０９にて認識されたそのような物体への参照及び／又はセンサデータ１２１から取得された測定値に基づいて、動画データ１０７、音声データ１０９及び／又はセンサデータ１２１の一部を互いに相関させてもよい。

いくつかの例では、ユーザインターフェース８００は、タスクを実行する第１のＳＭＥ対同じタスクを実行する第２のＳＭＥ対同じタスクを実行する初心者ユーザのマップでの差異の表現を出力してもよい。例えば、表現には、各ユーザが実施する挙動の変化又は行動の差異を示す１つ又は複数の強調表示された部分が含まれてもよい。さらに、ユーザインターフェース８００は、ユーザが拡大撮影して、異なるユーザの挙動又は行動の間の差異を表す特定の関心領域を表示することを可能にしてもよい。

図９は、本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャートである。便宜上、図９は、図１及び図２に関して説明されている。

図９の例に描写するように、動画装置１０６は、タスクを実施する第１のユーザ１０２の動画データ１０７を取得する（９０２）。動画データ１０７は、複数のカメラソースを含んでもよい。例えば、動画装置１０６は、第１の動画装置及び第２の動画装置を含む。第１の動画装置は、第１のユーザ１０２の一人称視点の観点から、タスクを実行する第１のユーザ１０２の動画データを取得するように構成される。第２の動画装置は、第１のユーザ１０２の三人称視点の観点から、タスクを実行する第１のユーザ１０２の動画データを取得するように構成される。動画認識ユニット２１４は、図１の動画装置１０６から動画データ１０７を受信し、物体認識を実施して、動画データ１０７に描写された１つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット２１４は、第１のユーザ１０２、第１のユーザ１０２によって使用される１つ又は複数のツール、第１のユーザ１０２が相互作用する１つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット２１４は、動画データ１０７を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。

音声装置１０８は、タスクを実行する第１のユーザ１０２の音声データ１０９を取得する（９０４）。いくつかの例では、音声データ１０９は、タスクを実行している間の第１のユーザの行動を記述する第１のユーザ１０２による説話を含む。他の例では、音声データ１０９は、例えば、タスクを実行する前又は後の第１のユーザ１０２の面談中など、第１のユーザがタスクを実行していない間に、タスクを実行する方法を記述する第１のユーザ１０２による説話を含む。音声認識ユニット２１２は、図１の音声装置１０８から音声データ１０９を受信し、発話認識を実施して、音声データ１０９内に存在する１つ又は複数の物体又は概念への参照を識別する。

センサ装置１２０は、タスクを実行する第１のユーザ１０２のセンサデータ１２１を取得する（９０６）。センサ１２０は、例えば、１つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ１２０は、第１のユーザ１０２が着用するか、第１のユーザ１０２が着用する物品、例えば、ユーザの指、手及び／又は腕の運動及び／又は力を検出する運動追跡手袋に組み込まれる。いくつかの例では、センサ１２０は、第１のユーザ１０２が使用する１つ又は複数のツール、例えば、ユーザが使用中のツールの運動及び力を検出するための１つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ１０２は、第１のユーザ１０２、第１のユーザ１０２の作業空間、あるいはユーザが表面に加えた力を検出する力パッド、例えば、作業面、ワークピース、ツール又は第１のユーザ１０２の加速度を検出するＩＭＵなどの第１のユーザ１０２が相互作用する物体に関連するデータを感知する外部センサである。

テキスト認識ユニット２０２は、タスクの実行に関連するドメイン文書１０４の形態でテキストデータを受信する（９０８）。ドメイン文書１０４の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト又は他の書面によるガイドが含まれる。テキスト認識ユニット２０２は、テキスト認識を実施して、機械学習システム１１２による使用に適したテキストデータを取得する。

機械学習システム１１２は、動画データ１０７を音声データ１０９と、センサデータ１２１と、ドメイン文書１０４から取得されたテキストデータとに相関させる（９１０）。いくつかの例では、機械学習システム１１２は、動画データ１０７の少なくとも一部を、音声データ１０９の少なくとも一部と、センサデータ１２１の少なくとも一部と、ドメイン文書１０４から取得されたテキストデータの少なくとも一部とに相関させる。動画データ１０７と音声データ１０９、センサデータ１２１及びテキストデータとの相関に基づいて、機械学習システム１１２は、タスクを実行するための複数のステップのうちの１つのステップを描写する動画データの少なくとも一部、タスクを実行するための複数のステップのうちの同じステップを記述する音声データの少なくとも一部、タスクを実行するための複数のステップのうちの同じステップを記述するセンサデータの少なくとも一部及びタスクを実行するための複数のステップのうちの同じステップを記述するテキストデータの少なくとも一部を識別してもよい。例えば、機械学習システム１１２は、動画データ１０７から第１の意味情報を抽出し、音声データ１０９から第２の意味情報を抽出し、センサデータ１２１から第３の意味情報を抽出し、ドメイン文書１０４から取得されたテキストデータから第４の意味情報を抽出する。機械学習システム１１２は、第１の意味情報を第２、第３及び第４の意味情報に相関させて、タスクを実行する際の同じステップを描写する動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータそれぞれの一部を識別する。

機械学習システム１１２は、相関する動画データ１０７、音声データ１０９、センサデータ１２１及びドメイン文書１０４から取得されたテキストデータを処理して、ドメインモデル１１４を更新して、タスクの実行をいっそう正確に記述するか、いっそう包括的に記述する（９１２）。ドメインモデル１１４は、第１のユーザ１０２が実行されるタスクのモデルを提供する。いくつかの例では、ドメインモデル１１４は、特定の目標を達成するために実施される複数のステップとしてタスクをモデル化する。いくつかの例では、ドメインモデル１１４は、タスクの実行に関連するオントロジー、クラスター、実体、行動、事象又は規則（例えば、意味規則）のうちの少なくとも１つを規定することによってタスクをモデル化する。例えば、機械学習システム１１２は、動画データ１０７に描写された物体を識別し、音声データ１０９から物体への参照を識別し、動画データ１０７に描写された物体を音声データ１０９内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させてもよい。次に、機械学習システム１１２は、例えば、オントロジー、実体、行動、事象又はタスクの実行を規定するドメインモデル１１４の規則を規定するための相関を使用することによって、動画データ１０７から識別された物体と音声データ１０９から識別された物体への参照との相関に基づいて、ドメインモデル１１４を更新してもよい。

訓練ユニット２１０は、ドメインモデル１１４を適用して、タスクのための訓練情報１１７を生成する（９１４）。訓練情報１１７は、例えば、タスク、タスクを構成する複数のステップのうちの１つ又は複数のステップ、あるいは他の各タイプのデータに相互参照された各タイプのデータに関連する物体（例えば、ツール又はワークピース）に関連する、例えば、動画データ、音声データ、センサデータ及び／又はテキストデータを含む。

訓練ユニット２１０は、タスクを実行するために第２のユーザ１１８を訓練する際に使用する訓練情報１１７を出力する（９１６）。例えば、訓練情報１１７は、第２のユーザ１１８が相互作用し得るテキスト情報、音声情報及び／又は動画情報の形態の双方向マルチメディアマニュアルの形態をとってもよい。別の例として、訓練情報１１７は、拡張現実コンテンツの形態をとってもよい。例えば、訓練ユニット２１０は、そのような拡張現実コンテンツを、例えば、第２のユーザ１１８が着用するＨＭＤに出力して、ＳＭＥによるタスクの実行の経験的な一人称視点を提供してもよい。いくつかの例では、拡張現実コンテンツは、第１のユーザ１０２によるナレーションなどの音声データ１０９の関連部分と、タスクを実行するときの第１のユーザ１０２の視点などの動画データ１０７の関連部分とを含んでもよい。

本開示に記載した技術は、少なくとも部分的に、ハードウェア、ソフトウェア、ファームウェア又はその任意の組み合わせで実装されてもよい。例えば、記載した技術のさまざまな態様を、１つ又は複数のマイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、特定用途向け集積回路（ＡＳＩＣ）、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、あるいは他の任意の同等の集積論理回路又は個別論理回路のほか、そのような構成要素の任意の組み合わせをはじめとする１つ又は複数のプロセッサ内に実装してもよい。「プロセッサ」又は「処理回路」という用語は概ね、前述の論理回路のいずれかを、単独で指すことも、他の論理回路と組み合わせて指すことも、あるいは任意の他の同等の回路を指すこともある。ハードウェアを含む制御ユニットがこのほか、本開示の技術のうちの１つ又は複数を実施してもよい。

そのようなハードウェア、ソフトウェア及びファームウェアは、本開示に記載したさまざまな操作及び機能を支持するために、同じ装置内又は別個の装置内に実装されてもよい。さらに、記載したユニット、モジュール又は構成要素のいずれかを、個別であるが相互運用可能な論理装置として共に実装しても、別々に実装してもよい。モジュール又はユニットとしてのさまざまな機能の描写は、さまざまな機能的側面を強調することを目的としており、必ずしもそのようなモジュール又はユニットが別個のハードウェア又はソフトウェア構成要素によって実現されなければならないことを意味するわけではない。むしろ、１つ又は複数のモジュール又はユニットに連動する機能が、別個のハードウェア又はソフトウェア構成要素によって実施されても、共通又は別個のハードウェア又はソフトウェア構成要素内に統合されてもよい。

本開示に記載の技術はこのほか、命令を含むコンピュータ可読記憶媒体などのコンピュータ可読媒体に具体化されても、符号化されてもよい。コンピュータ可読記憶媒体に埋め込まれるか符号化された命令が、例えば、命令が実行されたときに、プログラム可能なプロセッサ又は他のプロセッサにその方法を実施させてもよい。コンピュータ可読記憶媒体には、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電子的に消去可能なプログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスク、ＣＤ－ＲＯＭ、フロッピー（登録商標）ディスク、カセット、磁気媒体、光学媒体又はその他のコンピュータで読み取り可能な媒体が含まれてもよい。

本開示に記載の技術はこのほか、命令を含むコンピュータ可読記憶媒体などのコンピュータ可読媒体に具体化されても、符号化されてもよい。コンピュータ可読記憶媒体に埋め込まれるか符号化された命令が、例えば、命令が実行されたときに、プログラム可能なプロセッサ又は他のプロセッサにその方法を実施させてもよい。コンピュータ可読記憶媒体には、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、プログラム可能読み取り専用メモリ（ＰＲＯＭ）、消去可能なプログラム可能読み取り専用メモリ（ＥＰＲＯＭ）、電子的に消去可能なプログラム可能読み取り専用メモリ（ＥＥＰＲＯＭ）、フラッシュメモリ、ハードディスク、ＣＤ－ＲＯＭ、フロッピー（登録商標）ディスク、カセット、磁気媒体、光学媒体又はその他のコンピュータで読み取り可能な媒体が含まれてもよい。
上述の実施形態は下記のように記載され得るが、下記に限定されるものではない。
［構成１］
タスクを実行するための知識を獲得するためのシステムであって、前記システムは、
前記タスクの実行を規定するドメインモデルと、
前記タスクを実行する第１のユーザの動画データを取得するように構成された動画入力装置と、
前記タスクの実行を記述する音声データを取得するように構成された音声入力装置と、
前記タスクの実行中にセンサデータを生成するように構成された１つ又は複数のセンサと、
演算処理エンジンであって、
前記動画データの少なくとも一部を、前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された、演算処理エンジンと、
更新された前記ドメインモデルを適用して前記タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、
前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力するように構成された出力装置と、を具備する、システム。
［構成２］
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、機械学習システムであって、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの１つのステップを描写する前記動画データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部とを識別するように構成された、機械学習システムを具備する、構成１に記載のシステム。
［構成３］
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に関連する第１の意味情報を抽出し、
前記音声データの前記少なくとも一部から、前記タスクの実行に関連する第２の意味情報を抽出し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に関連する第３の意味情報を抽出し、
前記第１の意味情報、前記第２の意味情報及び前記第３の意味情報から、前記タスクを実行するための前記複数のステップのうちの前記１つのステップを描写する前記動画データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを記述する前記音声データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを描写する前記センサデータの前記少なくとも一部と、を識別するように構成される、構成２に記載のシステム。
［構成４］
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された前記機械学習システムは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された第１の機械学習システムを具備し、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された第２の機械学習システムを具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記第１の機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に使用される１つ又は複数の物体を識別し、
前記音声データの前記少なくとも一部から、前記タスクの実行に使用される前記１つ又は複数の物体への参照を識別し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に使用される前記１つ又は複数の物体の１つ又は複数の物理的測定値を識別し、
前記動画データから識別された前記１つ又は複数の物体を、前記音声データから識別された前記１つ又は複数の物体への前記参照と、前記センサデータから識別された前記１つ又は複数の物体の前記１つ又は複数の物理的測定値とに相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記第２の機械学習システムは、前記動画データから識別された前記１つ又は複数の物体と、前記音声データから識別された前記１つ又は複数の物体への前記参照及び前記センサデータから識別された前記１つ又は複数の物体の前記１つ又は複数の物理的測定値との相関に基づいて、オントロジー、実体、行動、事象又は前記ドメインモデルの前記タスクの実行を規定する規則のうちの少なくとも１つを規定するようにさらに構成される、構成２に記載のシステム。
［構成５］
前記タスクを実行する前記第１のユーザの前記動画データは、前記タスクを実行する前記第１のユーザの第１の動画データを含み、
前記タスクの実行を記述する前記音声データは、前記タスクの実行をナレーションする前記第１のユーザの第１の音声データを含み、
前記タスクの実行中に生成された前記センサデータは、前記第１のユーザによる前記タスクの実行中に生成された第１のセンサデータを含み、
前記動画入力装置は、前記タスクを実行する前記第２のユーザ又は第３のユーザのうちの少なくとも１つの第２の動画データを受信するようにさらに構成され、
前記音声入力装置は、前記タスクの実行をナレーションする前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つの第２の音声データを受信するようにさらに構成され、
前記１つ又は複数のセンサは、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの実行中に第２のセンサデータを生成するようにさらに構成され、
前記演算処理エンジンは、
前記第１の動画データの少なくとも一部を、前記第１の音声データの少なくとも一部と前記第１のセンサデータの少なくとも一部とに相関させ、
前記第２の動画データの少なくとも一部を、前記第２の音声データの少なくとも一部と前記第２のセンサデータの少なくとも一部とに相関させ、
相関する前記第１の動画データの前記少なくとも一部、前記第１の音声データの前記少なくとも一部及び前記第１のセンサデータの前記少なくとも一部と、相関する前記第２の動画データの前記少なくとも一部、前記第２の音声データの前記少なくとも一部及び前記第２のセンサデータの前記少なくとも一部とを処理して、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の意味論的差異を識別するように構成される、構成１に記載のシステム。
［構成６］
前記第２のユーザ及び前記第３のユーザのうちの前記少なくとも１つは、前記第３のユーザを含み、
前記出力装置は、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の識別された意味論的差異の説明について、前記第１のユーザと、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つとのうちの少なくとも１つに問い合わせるように構成され、
前記演算処理エンジンは、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するようにさらに構成される、構成５に記載のシステム。
［構成７］
前記第２のユーザ及び前記第３のユーザのうちの前記少なくとも１つは、前記第２のユーザを含み、
前記タスクを実行するための前記訓練情報を生成するために、前記訓練ユニットは、前記第１のユーザによる前記タスクの前記実行と前記第２のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する、前記第２のユーザへのフィードバックを生成するように構成され、
前記タスクを実行するために前記第２のユーザを訓練する際に使用する前記訓練情報を出力するために、前記出力装置は、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する前記フィードバックを前記第２のユーザに出力するように構成される、構成５に記載のシステム。
［構成８］
前記動画データは、前記第１のユーザの人間姿勢データ又は物体検出データのうちの少なくとも１つを用いて注釈が付けられた動画データを含む、構成１に記載のシステム。
［構成９］
前記システムは、前記タスクの実行を記述するテキストデータを受信するように構成された文書処理ユニットをさらに具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの少なくとも一部に相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新する、構成１に記載のシステム。
［構成１０］
前記タスクの実行を記述する前記テキストデータは、タスクを実行するための１つ又は複数の取扱説明書又は前記タスクの実行中に使用されるツールのリストを含む、構成９に記載のシステム。
［構成１１］
前記１つ又は複数のセンサは、前記第１のユーザ、前記第１のユーザの作業空間、前記タスクの実行中に前記第１のユーザによって使用される１つ又は複数のツール、あるいは前記タスクの実行の際に使用される１つ又は複数の物体のうちの１つ又は複数からの入力に基づいて、前記センサデータを生成するように構成される、構成１に記載のシステム。
［構成１２］
前記センサデータは、
前記第１のユーザの微小移動又は行動のうちの少なくとも１つに関連するデータ、
前記タスクの実行中に前記第１のユーザが相互作用する１つ又は複数の物体に関連するデータ、
前記第１のユーザの１つ又は複数の指又は手の動き、前記第１のユーザの手首の回転、あるいは１つ又は複数の物体に付与される前記第１のユーザの手の圧力又は指の圧力に関連するデータ、あるいは
１つ又は複数のツールと前記１つ又は複数の物体との間の角度、前記１つ又は複数の物体にかかる圧力、前記１つ又は複数の物体の表面の特徴又は前記１つ又は複数の物体の加速度のうちの１つ又は複数に関連するデータ、のうちの１つ又は複数のセンサデータを含む、構成１に記載のシステム。
［構成１３］
前記動画入力装置は、
前記第１のユーザの一人称視点の観点から、前記タスクを実行する前記第１のユーザの第１の動画データを取得するように構成された第１の動画入力装置と、
前記第１のユーザの三人称視点の観点から、前記タスクを実行する前記第１のユーザの第２の動画データを取得するように構成された第２の動画入力装置と、を具備し、
前記タスクを実行する前記第１のユーザの前記動画データは、前記第１の動画データ及び前記第２の動画データを含む、構成１に記載のシステム。
［構成１４］
前記タスクを実行するための訓練情報を生成するために、前記訓練ユニットは、
前記タスクを実行するために前記第２のユーザを訓練するための拡張現実コンテンツ、あるいは
前記タスクを実行するために前記第２のユーザを訓練するための双方向技術マニュアル、のうちの少なくとも１つを生成するように構成される、構成１に記載のシステム。
［構成１５］
前記訓練ユニットは、前記第２のユーザから、前記タスクを実行するための命令に対する問い合わせを受信するようにさらに構成され、
前記訓練ユニットは、更新された前記ドメインモデルを適用して、前記タスクを実行するための命令に対する前記問い合わせを受信することに応答して、前記タスクを実行するための前記訓練情報を生成するようにさらに構成される、構成１に記載のシステム。
［構成１６］
前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の意味論的差異を識別するように構成され、
前記出力装置は、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明について前記第１のユーザに問い合わせるように構成され、
前記演算処理エンジンは、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するように構成される、構成１に記載のシステム。
［構成１７］
前記タスクの実行を記述する前記音声データは、前記第１のユーザとの面談の音声データを含み、
前記タスクの実行中の意思決定のモデルと、
機械的、技術的又は職人的なドメインのうちの少なくとも１つでの１つ又は複数の手続き型スキルと、を特定する、構成１に記載のシステム。
［構成１８］
タスクを実行するための知識を獲得するための方法であって、前記方法は、
動画入力装置によって、前記タスクを実行する第１のユーザの動画データを取得するステップと、
音声入力装置によって、前記タスクの実行を記述する音声データを取得するステップと、
１つ又は複数のセンサによって、前記タスクの実行中にセンサデータを生成するステップと、
演算処理エンジンによって、前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させるステップと、
前記演算処理エンジンによって、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新するステップと、
訓練ユニットによって、更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成するステップと、
出力装置によって、前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力するステップと、を含む方法。
［構成１９］
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるステップは、
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの１つのステップを描写する前記動画データの少なくとも一部、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部及び前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部を識別するステップ、を含む、構成１８に記載の方法。
［構成２０］
命令を含む非一時的なコンピュータ可読媒体であって、前記命令は、実行されると、処理回路に、
前記タスクを実行する第１のユーザの動画データを取得させ、
前記タスクの実行を記述する音声データを取得させ、
前記タスクの実行中にセンサデータを生成させ、
前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新させ、
更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成させ、
前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力させる、ように構成される、非一時的なコンピュータ可読媒体。

Claims

タスクを実行するための知識を獲得するためのシステムであって、前記システムは、
前記タスクの実行を規定するドメインモデルと、
前記タスクを実行する第１のユーザの動画データを取得するように構成された動画入力装置と、
前記タスクの実行を記述する音声データを取得するように構成された音声入力装置と、
前記タスクの実行中にセンサデータを生成するように構成された１つ又は複数のセンサと、
演算処理エンジンであって、
前記動画データの少なくとも一部を、前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された、演算処理エンジンと、
更新された前記ドメインモデルを適用して前記タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、
前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力するように構成された出力装置と、を具備する、システム。
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、機械学習システムであって、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの１つのステップを描写する前記動画データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部とを識別するように構成された、機械学習システムを具備する、請求項１に記載のシステム。
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に関連する第１の意味情報を抽出し、
前記音声データの前記少なくとも一部から、前記タスクの実行に関連する第２の意味情報を抽出し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に関連する第３の意味情報を抽出し、
前記第１の意味情報、前記第２の意味情報及び前記第３の意味情報から、前記タスクを実行するための前記複数のステップのうちの前記１つのステップを描写する前記動画データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを記述する前記音声データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを描写する前記センサデータの前記少なくとも一部と、を識別するように構成される、請求項２に記載のシステム。
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された前記機械学習システムは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された第１の機械学習システムを具備し、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された第２の機械学習システムを具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記第１の機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に使用される１つ又は複数の物体を識別し、
前記音声データの前記少なくとも一部から、前記タスクの実行に使用される前記１つ又は複数の物体への参照を識別し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に使用される前記１つ又は複数の物体の１つ又は複数の物理的測定値を識別し、
前記動画データから識別された前記１つ又は複数の物体を、前記音声データから識別された前記１つ又は複数の物体への前記参照と、前記センサデータから識別された前記１つ又は複数の物体の前記１つ又は複数の物理的測定値とに相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記第２の機械学習システムは、前記動画データから識別された前記１つ又は複数の物体と、前記音声データから識別された前記１つ又は複数の物体への前記参照及び前記センサデータから識別された前記１つ又は複数の物体の前記１つ又は複数の物理的測定値との相関に基づいて、オントロジー、実体、行動、事象又は前記ドメインモデルの前記タスクの実行を規定する規則のうちの少なくとも１つを規定するようにさらに構成される、請求項２に記載のシステム。
前記タスクを実行する前記第１のユーザの前記動画データは、前記タスクを実行する前記第１のユーザの第１の動画データを含み、
前記タスクの実行を記述する前記音声データは、前記タスクの実行をナレーションする前記第１のユーザの第１の音声データを含み、
前記タスクの実行中に生成された前記センサデータは、前記第１のユーザによる前記タスクの実行中に生成された第１のセンサデータを含み、
前記動画入力装置は、前記タスクを実行する前記第２のユーザ又は第３のユーザのうちの少なくとも１つの第２の動画データを受信するようにさらに構成され、
前記音声入力装置は、前記タスクの実行をナレーションする前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つの第２の音声データを受信するようにさらに構成され、
前記１つ又は複数のセンサは、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの実行中に第２のセンサデータを生成するようにさらに構成され、
前記演算処理エンジンは、
前記第１の動画データの少なくとも一部を、前記第１の音声データの少なくとも一部と前記第１のセンサデータの少なくとも一部とに相関させ、
前記第２の動画データの少なくとも一部を、前記第２の音声データの少なくとも一部と前記第２のセンサデータの少なくとも一部とに相関させ、
相関する前記第１の動画データの前記少なくとも一部、前記第１の音声データの前記少なくとも一部及び前記第１のセンサデータの前記少なくとも一部と、相関する前記第２の動画データの前記少なくとも一部、前記第２の音声データの前記少なくとも一部及び前記第２のセンサデータの前記少なくとも一部とを処理して、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の意味論的差異を識別するように構成される、請求項１に記載のシステム。
前記第２のユーザ及び前記第３のユーザのうちの前記少なくとも１つは、前記第３のユーザを含み、
前記出力装置は、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の識別された意味論的差異の説明について、前記第１のユーザと、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つとのうちの少なくとも１つに問い合わせるように構成され、
前記演算処理エンジンは、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザ又は前記第３のユーザのうちの前記少なくとも１つによる前記タスクの前記実行との間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するようにさらに構成される、請求項５に記載のシステム。
前記第２のユーザ及び前記第３のユーザのうちの前記少なくとも１つは、前記第２のユーザを含み、
前記タスクを実行するための前記訓練情報を生成するために、前記訓練ユニットは、前記第１のユーザによる前記タスクの前記実行と前記第２のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する、前記第２のユーザへのフィードバックを生成するように構成され、
前記タスクを実行するために前記第２のユーザを訓練する際に使用する前記訓練情報を出力するために、前記出力装置は、前記第１のユーザによる前記タスクの前記実行と、前記第２のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する前記フィードバックを前記第２のユーザに出力するように構成される、請求項５に記載のシステム。
前記動画データは、前記第１のユーザの人間姿勢データ又は物体検出データのうちの少なくとも１つを用いて注釈が付けられた動画データを含む、請求項１に記載のシステム。
前記システムは、前記タスクの実行を記述するテキストデータを受信するように構成された文書処理ユニットをさらに具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの少なくとも一部に相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新する、請求項１に記載のシステム。
前記タスクの実行を記述する前記テキストデータは、タスクを実行するための１つ又は複数の取扱説明書又は前記タスクの実行中に使用されるツールのリストを含む、請求項９に記載のシステム。
前記１つ又は複数のセンサは、前記第１のユーザ、前記第１のユーザの作業空間、前記タスクの実行中に前記第１のユーザによって使用される１つ又は複数のツール、あるいは前記タスクの実行の際に使用される１つ又は複数の物体のうちの１つ又は複数からの入力に基づいて、前記センサデータを生成するように構成される、請求項１に記載のシステム。
前記センサデータは、
前記第１のユーザの微小移動又は行動のうちの少なくとも１つに関連するデータ、
前記タスクの実行中に前記第１のユーザが相互作用する１つ又は複数の物体に関連するデータ、
前記第１のユーザの１つ又は複数の指又は手の動き、前記第１のユーザの手首の回転、あるいは１つ又は複数の物体に付与される前記第１のユーザの手の圧力又は指の圧力に関連するデータ、あるいは
１つ又は複数のツールと前記１つ又は複数の物体との間の角度、前記１つ又は複数の物体にかかる圧力、前記１つ又は複数の物体の表面の特徴又は前記１つ又は複数の物体の加速度のうちの１つ又は複数に関連するデータ、のうちの１つ又は複数のセンサデータを含む、請求項１に記載のシステム。
前記動画入力装置は、
前記第１のユーザの一人称視点の観点から、前記タスクを実行する前記第１のユーザの第１の動画データを取得するように構成された第１の動画入力装置と、
前記第１のユーザの三人称視点の観点から、前記タスクを実行する前記第１のユーザの第２の動画データを取得するように構成された第２の動画入力装置と、を具備し、
前記タスクを実行する前記第１のユーザの前記動画データは、前記第１の動画データ及び前記第２の動画データを含む、請求項１に記載のシステム。
前記タスクを実行するための訓練情報を生成するために、前記訓練ユニットは、
前記タスクを実行するために前記第２のユーザを訓練するための拡張現実コンテンツ、あるいは
前記タスクを実行するために前記第２のユーザを訓練するための双方向技術マニュアル、のうちの少なくとも１つを生成するように構成される、請求項１に記載のシステム。
前記訓練ユニットは、前記第２のユーザから、前記タスクを実行するための命令に対する問い合わせを受信するようにさらに構成され、
前記訓練ユニットは、更新された前記ドメインモデルを適用して、前記タスクを実行するための命令に対する前記問い合わせを受信することに応答して、前記タスクを実行するための前記訓練情報を生成するようにさらに構成される、請求項１に記載のシステム。
前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の意味論的差異を識別するように構成され、
前記出力装置は、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明について前記第１のユーザに問い合わせるように構成され、
前記演算処理エンジンは、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するように構成される、請求項１に記載のシステム。
前記タスクの実行を記述する前記音声データは、前記第１のユーザとの面談の音声データを含み、
前記タスクの実行中の意思決定のモデルと、
機械的、技術的又は職人的なドメインのうちの少なくとも１つでの１つ又は複数の手続き型スキルと、を特定する、請求項１に記載のシステム。
タスクを実行するための知識を獲得するための方法であって、前記方法は、
動画入力装置によって、前記タスクを実行する第１のユーザの動画データを取得するステップと、
音声入力装置によって、前記タスクの実行を記述する音声データを取得するステップと、
１つ又は複数のセンサによって、前記タスクの実行中にセンサデータを生成するステップと、
演算処理エンジンによって、前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させるステップと、
前記演算処理エンジンによって、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新するステップと、
訓練ユニットによって、更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成するステップと、
出力装置によって、前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力するステップと、を含む方法。
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるステップは、
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの１つのステップを描写する前記動画データの少なくとも一部、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部及び前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部を識別するステップ、を含む、請求項１８に記載の方法。
命令を含む非一時的なコンピュータ可読媒体であって、前記命令は、実行されると、処理回路に、
前記タスクを実行する第１のユーザの動画データを取得させ、
前記タスクの実行を記述する音声データを取得させ、
前記タスクの実行中にセンサデータを生成させ、
前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新させ、
更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成させ、
前記タスクを実行するために第２のユーザを訓練する際に使用する前記訓練情報を出力させる、ように構成される、非一時的なコンピュータ可読媒体。