JP2023076426A - 技術的知識獲得のための機械学習システム - Google Patents

技術的知識獲得のための機械学習システム Download PDF

Info

Publication number
JP2023076426A
JP2023076426A JP2023019137A JP2023019137A JP2023076426A JP 2023076426 A JP2023076426 A JP 2023076426A JP 2023019137 A JP2023019137 A JP 2023019137A JP 2023019137 A JP2023019137 A JP 2023019137A JP 2023076426 A JP2023076426 A JP 2023076426A
Authority
JP
Japan
Prior art keywords
task
data
user
video data
audio data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2023019137A
Other languages
English (en)
Inventor
アチャリャ ギリッシュ
Acharya Girish
ヤーナル ルイーズ
Yarnall Louise
ロイ アニルバン
Anirban Roy
ベッセル ミヒャエル
Michaelwessel
ヤオ イー
Yao Yi
ジェイ.バーンズ ジョン
J Byrnes John
フライターグ デイン
Freitag Dayne
ワイラー ザカリー
Weiler Zachary
カルマー ポール
Kalmar Paul
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SRI International Inc
Original Assignee
SRI International Inc
Stanford Research Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SRI International Inc, Stanford Research Institute filed Critical SRI International Inc
Publication of JP2023076426A publication Critical patent/JP2023076426A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/20Scenes; Scene-specific elements in augmented reality scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • G06V30/262Techniques for post-processing, e.g. correcting the recognition result using context analysis, e.g. lexical, syntactic or semantic context
    • G06V30/274Syntactic or semantic context, e.g. balancing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/10Human or animal bodies, e.g. vehicle occupants or pedestrians; Body parts, e.g. hands
    • G06V40/107Static hand or arm
    • G06V40/113Recognition of static hand signs
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/28Recognition of hand or arm movements, e.g. recognition of deaf sign language
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B19/00Teaching not covered by other main groups of this subclass
    • G09B19/003Repetitive work cycles; Sequence of movements
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • GPHYSICS
    • G09EDUCATION; CRYPTOGRAPHY; DISPLAY; ADVERTISING; SEALS
    • G09BEDUCATIONAL OR DEMONSTRATION APPLIANCES; APPLIANCES FOR TEACHING, OR COMMUNICATING WITH, THE BLIND, DEAF OR MUTE; MODELS; PLANETARIA; GLOBES; MAPS; DIAGRAMS
    • G09B5/00Electrically-operated educational appliances
    • G09B5/06Electrically-operated educational appliances with both visual and audible presentation of the material to be studied
    • G09B5/065Combinations of audio and video presentations, e.g. videotapes, videodiscs, television systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1815Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/26Speech to text systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Human Computer Interaction (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Educational Technology (AREA)
  • Educational Administration (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Psychiatry (AREA)
  • Social Psychology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • User Interface Of Digital Computer (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

【課題】実用的な用途を有する機械学習のコンピュータ関連分野に特定の技術的改善を提供する。【解決手段】この開示には、タスクを実行するために人間の知識を獲得するための機械学習技術が記載される。一例では、動画装置が、タスクを実行する第1のユーザの動画データを取得し、1つ又は複数のセンサが、タスクの実行中にセンサデータを生成する。音声装置が、タスクの実行を記述する音声データを取得する。演算処理エンジンが、機械学習システムを適用して、動画データを音声データとセンサデータとに相関させ、タスクを実行するための複数のステップのうちの同じステップを描写する動画データ、センサデータ及び音声データの一部を識別する。機械学習システムは、相関するデータをさらに処理して、タスクの実行を規定するドメインモデルを更新する。訓練ユニットが、ドメインモデルを適用して、タスクを実行するための訓練情報を生成する。出力装置が、タスクを実行するために第2のユーザを訓練する際に使用する訓練情報を出力する。【選択図】図2

Description

この開示は、機械学習システム、さらに具体的には、知識獲得のための機械学習に概ね関する。
職場では、訓練プログラムを使用して従業員を訓練し、従業員の役割での業績を向上させるための知識又はスキルを開発する。しかし、タスクが複雑になるほど、従業員にタスクの実行を首尾よく教示するために必要な訓練が増大する。非常に複雑なタスクを実行するために新たな従業員を訓練することには、費用と時間がかかることがある。別の例として、職場では、対象分野の専門家(SME)を用いて、特定のタスクを実行するように訓練生に教示する場合がある。SMEとは、特定の仕事、一連の作業、部門、機能、技術、機械、材料又は機器の種類について深く理解している個人であり、多くの場合、従業員又はコンサルタントである。典型的には、SMEは、経験と訓練を組み合わせて専門知識を育成する。これを発展させるのに、SMEは何年もかかる場合がある。
一部の職場では、SMEに訓練動画又は書面による指示ガイドを作成させて、従業員に特定のタスクを実行するように教示することにより、従業員を訓練する場合がある。しかし、動画及び指示ガイドには、従業員が質問することができないため、不利になる可能性がある。さらに、SMEは、重要な情報を誤って省略してしまうか、無意識のうちに省略してしまう可能性がある。さらに、グローバル企業では、従業員を訓練するためのマルチメディア技術マニュアルの作成に多大な時間と予算を費やしている。これは、目的の技能に、高度に専門化されたタスク、暗黙知又は複数の言語が含まれる場合、さらに高価になる可能性がある。別の例として、職場では、SMEがタスクを実行している間、従業員にSMEを観察させる場合がある。SMEの観察、即ち、「シャドーイング」は、従業員にとっては価値がある可能性があるが、大規模な従業員群にとっては実施不可能であり、SMEの効率を損なう可能性がある。訓練動画に類似する方法では、SMEは、自らが実演しているタスクに関連し、微細ではあるが重要な詳細の口頭での説明を意図せず省略してしまう可能性がある。さらに、職場では、従業員が教室環境にて講習会に参加する場合があるが、そのような教室環境では、技術的なタスクに貴重な実地体験が提供されない場合がある。さらに、非常に複雑なタスクの場合、あるいは特殊な分野では、タスクを実行するための新たな従業員の訓練を支援するSMEが多くない場合がある。
本開示には、タスクを実行するための人間の知識を獲得して、タスクを実行するために他の人を訓練するのに使用可能なドメインモデルを構築するか改良するための機械学習技術が概ね記載される。一例では、動画装置が、タスクを実行する第1のユーザの動画データを取得する。いくつかの例では、第1のユーザはタスクを実行するSMEである。動画データは、第1のユーザの一人称視点の観点の動画データ及び/又は第1のユーザの三人称視点の観点の動画データなど、複数のカメラソースを含んでもよい。音声入力装置が、タスクの実行を記述する音声データを取得する。いくつかの例では、音声データは、タスクを実行している間の第1のユーザの行動の第1のユーザによる説話を含む。他の例では、音声データは、第1のユーザがタスクを実行していない間に第1のユーザがナレーションする、タスクを実行する方法の説話を含む。いくつかの例では、1つ又は複数のセンサが、第1のユーザによるタスクの実行中にセンサデータを生成する。いくつかの例では、センサデータは、第1のユーザがとった動き又は行動、第1のユーザとツール、ワークピースなどの1つ又は複数の物体との間の相互作用に関連する加速度計データ、圧力データ又は力データを含む。いくつかの例では、文書処理ユニットが、取扱説明書、部品リスト又は他の書面によるガイドなどから、タスクの実行を記述するテキストデータを取得してもよい。
いくつかの例では、演算処理エンジンが、収集されたデータ(例えば、動画データ、音声データ、センサデータ及び/又はテキストデータ)に機械学習システムを適用して、タスクの実行を規定するドメインモデルを更新する。本明細書に記載のように、タスクを、所与の目的を達成するために実施される複数のステップとして概念化してもよい。いくつかの例では、機械学習システムは、動画データにて認識された物体を音声データ及び/又はテキストデータ内の物体への参照のほか、センサデータ内の測定値と相関さることによってドメインモデルを更新し、その結果、タスクを実行するための複数のステップのうちの同じステップを記述する動画データの一部、音声データの一部、センサデータの一部及びテキストデータの一部を識別する。例えば、プレート上の圧力センサが、自身の動きを説明しているSMEからの口頭での説明に加えて、SMEがプレートに加えている圧力の量を記録してもよい。訓練ユニットが、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成する。いくつかの例では、訓練ユニットは、訓練情報を保存する知識データベースを形成する。訓練情報は、例えば、互いに相互参照された動画データ、音声データ、センサデータ及びテキストデータを含み、その結果、第2のユーザが、概念、タスク又は副次的タスクによって知識データベースを検索して、第2のユーザの問い合わせに関連する訓練情報を取得してもよい。出力装置が、タスクを実行するために第2のユーザを訓練する際に使用する訓練情報を出力する。いくつかの例では、第2のユーザは初心者である。いくつかの例では、出力装置は、第2のユーザの一人称視点から、タスクの実行を描写する拡張現実動画の形態で訓練データを出力する。
本開示の技術は、実用的な用途を有する機械学習のコンピュータ関連分野に特定の技術的改善を提供する可能性がある。例えば、本明細書に記載の技術は、機械学習システムが、複雑なタスクを実行する第1のユーザの多様なデータソースを融合して、複雑なタスクを実行するように第2のユーザを訓練するのに有用な訓練情報を生成することを可能にしてもよい。例えば、本開示の技術は、機械学習システムが複雑なタスクを実行するSMEからデータを獲得することを可能にし、その結果、他の人(初心者ユーザなど)が複雑なタスクを実行するのに有用な訓練資料を作成することができるようになる。さらに、本開示の技術は、機械学習システムが、タスクの説明を求められたときにSMEにとって未知であるか、認識されていないか、主観的である可能性があるタスクをSMEが実行するさまざまな態様を獲得することによって、主観的であるか伝達が困難である可能性があるタスクを実行する際の重要な情報を識別することを可能にしてもよい。このため、本開示の技術は、効率を高め、複雑なタスクを実行するための従業員の訓練のコストを削減する可能性がある、焦点を絞った経験的な訓練情報の作成を可能にする可能性がある。
一例では、本開示には、タスクを実行するための知識を獲得するためのシステムが記載される。このシステムは、タスクの実行を規定するドメインモデルと、タスクを実行する第1のユーザの動画データを取得するように構成された動画入力装置と、タスクの実行を記述する音声データを取得するように構成された音声入力装置と、タスクの実行中にセンサデータを生成するように構成された1つ又は複数のセンサと、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させ、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新するように構成された演算処理エンジンと、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、タスクを実行するために第2のユーザを訓練する際に使用する訓練情報を出力するように構成された出力装置と、を備える。
別の例では、本開示には、タスクを実行するための知識を獲得するための方法が記載される。この方法は、動画入力装置によって、タスクを実行する第1のユーザの動画データを取得するステップと、音声入力装置によって、タスクの実行を説明する音声データを取得するステップと、1つ又は複数のセンサによって、タスクの実行中にセンサデータを生成するステップと、演算処理エンジンによって、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させるステップと、演算処理エンジンによって、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新するステップと、訓練ユニットによって、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成するステップと、出力装置によって、タスクを実行するために第2のユーザを訓練する際に使用する訓練情報を出力するステップと、を含む。
別の例では、本開示には、命令を含む非一時的なコンピュータ可読媒体が記載される。この命令は、実施されると、処理回路に、タスクを実行する第1のユーザの動画データを取得させ、タスクの実行を説明する音声データを取得させ、タスクの実行中にセンサデータを生成させ、動画データの少なくとも一部を音声データの少なくとも一部とセンサデータの少なくとも一部とに相関させ、相関する動画データの少なくとも一部、音声データの少なくとも一部及びセンサデータの少なくとも一部を処理して、タスクの実行を規定するドメインモデルを更新させ、更新されたドメインモデルを適用して、タスクを実行するための訓練情報を生成させ、タスクを実行するために第2のユーザを訓練する際に使用する訓練情報を出力させるように構成される。
本開示の技術の1つ又は複数の例の詳細は、添付の図面及び以下の説明に記載されている。この技術の他の特徴、目的及び利点が、説明及び図面並びに特許請求の範囲から明らかになるであろう。
本開示の技術に従って訓練情報を生成するための例示的なシステムを示すブロック図。 本開示の技術に従って訓練情報を生成するための例示的な計算システムを示すブロック図。 本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャート。 本開示の技術に従って訓練情報を生成するための例示的なシステムを示す図。 本開示の技術に従って訓練情報を生成するための例示的なシステムを示す図。 本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データの図。 本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データの図。 本開示の技術に従って生成された訓練情報を描写する例示的なユーザインターフェースの図。 本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャート。
類似の参照文字が、図及び説明全体で類似の要素を指す。
知識の獲得とは、知識が暗黙知から形式知に変換される過程である。「暗黙」知又は「黙示的」知とは、SMEの純粋な才能又は蓄積された経験を通じて、特定の領域又は分野の制度的知識、あるいは特定の組織又は組織の領域に向けられた制度的知識を所有するSMEの中に包含されるか、その中で実体化された知識の一種である。例えば、暗黙知の例には、きわめて差異の小さい(例えば、2人の別々のSMEによる同一のタスクの実行の間の差がわずかな)聴覚、視覚、触覚、嗅覚、味覚又は他の感覚の知識など、説明が難しい知識、あるいは複数の異なる感覚領域で同時に発生する可能性があり、相互に関連している変化を含む知識が挙げられる。SMEには、自身が所有する暗黙知の全体を特定することができない場合がある。暗黙知とは対照的に、「明示」型又は形式知とは、人が容易に明確に表現するか、成文化するか、保存するか、アクセスする可能性のある知識である。SMEが形式知を他の人に容易に伝達する可能性があるのに対して、暗黙知は必ずしも容易に伝達できるとは限らない。後に使用するために暗黙知を迅速に獲得することができることには非常に価値があるであろう。本明細書に記載のように、形式知と暗黙知の両方を獲得して訓練情報を生成し、それによって知識獲得過程を高速化し、双方向マルチメディア取扱説明書を作成する能力を可能なものにするほか、人工知能(AI)及び/又は機械学習(ML)を適用することによってさまざまな言語で拡張現実コンテンツを提供することを可能にする技術について説明する。
従来、SMEが、知識を伝達する方法として、例えば、初心者などの他の人を訓練するために使用する可能性のある文書又は動画を作成する。この方法でコンテンツを作成するには、非常に時間がかかる。さらに、訓練生が大量の研修コンテンツ内で関連情報を見つけるのは難しい場合がある。本明細書に記載の技術は、システムがSMEから暗黙知のほか、形式知も獲得することを可能にする。本明細書に記載の技術の例では、システムが、一人称視点の図と三人称視点の図の両方にて、SMEの活動(例えば、一連の保守作業、機械加工活動又は製作活動など)を獲得するための1つ又は複数の3D動画カメラを備える。そのようなシステムは、SMEが活動を実践するときの口述を獲得するように構成された1つ又は複数のマイクロフォンをさらに備える。続いて、例えば、AI及び/又はMLを使用する演算処理エンジンが、一連のステップを実施して、獲得されたデータを訓練情報に変換する。いくつかの例では、演算処理エンジンは、AIを使用してデータに設計パターンを適用し、活動(本明細書では「タスク」とも呼ばれる)を、活動を実施するための1つ又は複数のステップに一般化する。さらに、演算処理エンジンは、AI及び/又はMLを使用して、明確に規定された過程にてSMEを案内し、その結果、AI及び/又はMLが能動的学習過程を支援してもよい。いくつかの例では、システムは、訓練指向の情報を引き出すためにSMEに提起される可能性のある一連の質問を生成する。例えば、システムはSMEに問い合わせを実施して、発表の目的を述べたり、活動の簡単な説明を提供したり、及び/又は過程を説明したり、及び/又は実演する前に過程の最終目標を設計したりしてもよい。さらに、システムは、通常の手順からの任意の逸脱の説明と、そのような逸脱の理由とについて、SMEに問い合わせてもよい。
いくつかの例では、本明細書に記載のシステムの演算処理エンジンは、AIを適用して、異なる角度での複数のカメラからの動画内の情報を理解し、そのような情報から3Dモデルを構築してもよい。いくつかの例では、システムは、SMEの手作業で活動認識を実施してもよい。従来のシステムは、座る、立つ、歩くなどの包括的な人間の運動に焦点を合わせることがあるが、本明細書に記載のシステムでは、指の動き、手首の回転、ツールに加えられる手/指の圧力などのさらに細かい手の運動及び/又は工具の細かい動きを獲得してもよい。このため、本明細書に記載のそのようなシステムは、複数の3Dカメラを使用して、活動又はタスクの実行中にSMEの近景を取得することによって、精度を改善する。いくつかの例では、システムは、SMEからの動作データを獲得する1つ又は複数のセンサであって、例えば、着用されるか着用可能な衣服に組み込まれたセンサをさらに備える。システムは、取得した音声データ及び動画データと併せてセンサを使用して、訓練生に示される可能性のあるSMEの身ぶりと動きを獲得するのを支援する。例えば、タスクが特定の機械の保守を含む場合、システムは、物体を洗浄する、ボルトを緩める、ディスクを取り外す、ダイヤルゲージを使用して平坦度を確認するなど、非常に細かい手の操作を描写してもよい。いくつかの例では、システムは、SMEの視点からそのようなタスクの実行を獲得し、拡張現実コンテンツの形態で訓練生のタスクの実行を再生する。他の例では、演算処理エンジンはAIの有無にかかわらずMLを使用して、動画源及び音声源からデータを解読し、情報を獲得する。
いくつかの例では、演算処理エンジンは、AI及び/又はML構成要素を適用して、SMEによるナレーションのほか、動画データ、音声データ又はセンサデータを介して取得された視覚的実体、行動及び概念を統合する。本明細書に記載するようなシステムでは、最小限の訓練例を用いて、音声データ、例えば、タスクに関連するSMEによる口述から情報を抽出してもよい。本明細書に記載するようなシステムではこのほか、タスクに関連するドメイン文書から取得したテキストデータを、利用可能な場合には、使用するほか、タスクのそのような文書化が存在しない場合は規則に基づく手法を適用してもよい。いくつかの例では、本明細書に記載するようなシステムでは、SMEによる説話形式の説明又は口述などの音声データを、さまざまな順序で、タスクを実行するSMEの動画データの分析と融合させる。さらに、SMEは、いつでも(例えば、タスクの実行前、実施中又は実施後に)行動関連情報のそのような説話を提供してもよい。SMEが動画記録に口述を組み入れる場合、本明細書に記載のシステムは、動画データに描写された物体を、音声記録を介して説明されているそのような物体への参照に相関させてもよい。例えば、システムは、音声データから、特定の手順について、SMEが物体の平坦度測定値が4ミクロン以内であることを保証するというSMEによる発言を識別する。音声データには、SMEが検査操作を実施する前、SMEによる検査操作の実施中又はSMEが検査操作を実施した後に、この発言が含まれてもよい。本明細書に記載するようなシステムでは、SMEによる発言と動画データにて認識された物体との間の相関関係を識別し、関連する発言が音声データにて発生する期間又は関連する物体が動画データにて識別される期間に関係なく、複数の情報源を調整する。
別の例では、システムは、動画データに描写された1つ又は複数の物体に対して第1のユーザがとった行動と、1つ又は複数のセンサを介して取得された1つ又は複数の測??定値との間の相関を識別してもよい。例えば、システムは、動画データに描写された行動を、第1のユーザが使用したツールから感知され、動画データにて1つ又は複数の物体が識別される期間と同時に生成される加速度計、圧力又は力の測定値と相関させてもよい。
いくつかの例では、演算処理エンジンは、AI及び/又はMLを適用して、他の価値のあるタスクを実行してもよい。例えば、本明細書に記載するようなシステムでは、AIを使用して、タスク学習ステップを、一般化されたステップに変換するか、タスクの記述にて欠落した区分又は不明瞭な区分を識別してフラグを立ててもよい。例えば、本明細書に記載するようなシステムでは、タスクのための所与のドメインモデルに基づいて、欠落している情報を識別してもよい。一例として、システムは、機器の使用を較正し、機器の1つ又は複数の読み出しの範囲を検査することを目的とするタスクから開始してもよい。システムは、SMEからの口述を、タスクの目標、安全性、SMEによる現在の行動の補足説明など、さまざまなカテゴリに分類する。
本明細書に記載するようなシステムでは、最小限の訓練例によって動画データ内の物体を認識するために、物体認識を実施してもよい。本明細書に記載のシステムは、第1の動画内の物体を識別し、この知識を複数の後続の動画にわたって活用することによってこれを達成してもよい。いくつかの例では、本明細書に記載のシステムは、1つ又は複数の物体の近くで実施される複数の操作の認識を使用して、1つ又は複数の物体の識別の精度を高める。さらに、本明細書に記載のシステムは、タスクのドメインモデルを更新し、ドメインモデルを適用して、タスクを実行するために第2のユーザが使用する訓練情報を生成する。いくつかの例では、システムは、SMEから取得した音声データ又はテキストデータを第1の言語(例えば、日本語)で使用し、タスクを実行するために第2のユーザを訓練する際に使用する第2の言語(例えば、英語)で訓練情報を生成してもよい。このため、本明細書に記載するようなシステムでは、会社が作成したか、外部情報源から入手可能な既存の文書を活用して、SMEと言語を共有しないユーザを訓練するための有用な用語に到達してもよい。いくつかの例では、本明細書に記載の開示の技術は、従来の知識獲得技術よりも3倍以上も知識獲得を高速化する場合がある。
図1は、本開示の技術に従って訓練情報を生成するための例示的なシステム100を示すブロック図である。システム100は、1つ又は複数の動画装置106、1つ又は複数の音声装置108、1つ又は複数のセンサ120、機械学習システム112、ドメインモデル114及び知識データベース116を備える。
本開示の技術によれば、第1のユーザ102が、タスク(例えば、活動)を実行する。いくつかの例では、第1のユーザ102は、タスクを実行するSMEである。タスクは、例えば、産業機械の保守又は洗浄を実施するタスク、産業機械を使用して機械部品、消費財又は芸術品を機械加工するか製造するタスク、楽器を用いた演奏を伴うタスク、あるいは本明細書に明示的に記載していない練習、訓練又は専門知識を必要とする任意の他のタスクであってもよい。動画装置106は、タスクを実行する第1のユーザ102の動画データ107を生成する。音声装置108は、タスクの実行を記述する音声データ109を生成する。さらに、センサ120は、タスクの実行のセンサデータ121を生成する。計算システム130の機械学習システム112は、動画データ107、音声データ109及びセンサデータ121のほか、ドメイン文書104を受信し、データ104、107、109及び121から取得したデータを処理して、ドメインモデル114を更新する。これは、タスクの実行を規定する。演算処理エンジン130が、ドメインモデル116を適用して、タスクを実行するための訓練情報117を生成し、訓練情報117を知識データベース116に保存する。第2のユーザ118が、知識データベース116に保存された訓練情報117にアクセスして、タスクを実行する際に第2のユーザ118を訓練してもよい。
図1に描写するように、動画装置106は、タスクを実行する第1のユーザ102の動画データ107を生成し、そのような動画データ107を機械学習システム112に提供する。動画データ107は複数のカメラソースを含んでもよい。例えば、動画装置106は第1の動画装置及び第2の動画装置を含む。第1の動画装置は、第1のユーザ102の一人称視点の観点からタスクを実行する第1のユーザ102の動画データを取得するように構成される。第2の動画装置は、第1のユーザ102の三人称視点の観点からタスクを実行する第1のユーザ102の動画データを取得するように構成される。他の例では、動画装置106は、第1のユーザ102の一人称視点の観点に位置決めされた複数の動画装置のほか、第1のユーザ102のさまざまな三人称視点の観点に位置決めされた(例えば、第1のユーザ102がタスクを実行する部屋又は環境でのさまざまな異なる位置又は姿勢の)複数の動画装置を備えてもよい。いくつかの例では、動画データ107は、表面のきわめて近傍の3D変化、ワークピースの色の機械視覚を含む。複数の視点から複数のカメラを使用することにより、以下でさらに詳細に説明するように、環境、ツール又はワークピースとの第1のユーザ102の相互作用を理解する際に、機械学習システム112にとっていっそう包括的でいっそう有益な動画データ107の作成が可能になる。
各動画装置106は、動画装置106の姿勢から複数の2次元(2D)フレームを作成する撮像装置の一例である。いくつかの例では、動画装置106は、情景に対して2D画像又は3D画像を生成する別のタイプの撮像装置であってもよく、画像データのストリームを生成する動画カメラ、レーザスキャナ又は他の光学装置、環境内の特徴の範囲を示す画像データを生成する深度センサ、3D情報を生成するための複数のカメラを有する立体視システム、ドップラーレーダ又はその他の撮像装置であってもよい。いくつかの例では、動画装置106は3次元(3D)カメラを備える。そのような3Dカメラは、異なる角度に位置決めされた2つ以上の撮像装置を使用して3D動画を記録して、複数の姿勢から、複数の次元にて動画データを取得することができる。動画装置106によって生成されたフレームは、動画ストリームのフレームなどとして、要求に応じて定期的に生成された2次元画像を表してもよい。このような2Dフレームは、さまざまな解像度のものであってもよく、システム100のさまざまなユニットによって処理され得るさまざまなフォーマットで生成されてもよい。
音声装置108は、タスクの実行を記述する音声データ109を生成し、そのような音声データ109を機械学習システム112に提供する。いくつかの例では、音声データ109は、タスクを実行している間の第1のユーザの行動を記述する、第1のユーザ102による説話を含む。他の例では、音声データ109は、例えば、タスクを実行する前の第1のユーザ102の最初の面談中、あるいはタスクを実行した後の第1のユーザ102の面談後など、第1のユーザがタスクを実行していない間にタスクを実行する方法を記述する、第1のユーザ102による説話を含む。音声装置108の一例には、ダイナミックマイクロフォン、コンデンサーマイクロフォン又は接触型マイクロフォンなどのマイクロフォンが挙げられる。しかし、本開示の技術は、本明細書で明示的に記載していないタスクの実行中に音声を取得するか録音するために他の装置を使用してもよい。
センサ120は、タスクの実行のセンサデータ121を生成する。センサ120は、例えば、1つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ120は、タスクの実行中に、第1のユーザ102、第1のユーザ102の作業空間、あるいは1つ又は複数のツール又はワークピースなど、第1のユーザ102が相互作用する1つ又は複数の物体から取得したセンサデータを生成する。いくつかの例では、センサデータ121は、第1のユーザ102の微小移動又は行動のうちの少なくとも1つに関連するデータを含む。いくつかの例では、センサデータ121は、タスクの実行中に第1のユーザ102が相互作用する1つ又は複数の物体に関連するデータを含む。いくつかの例では、センサデータ121は、第1のユーザの1つ又は複数の指又は手の動き、第1のユーザの手首の回転又は1つ??又は複数の物体に加えられる第1のユーザの手の圧力又は指の圧力に関連するデータを含む。いくつかの例では、センサデータ121は、1つ又は複数のツールと1つ又は複数の物体との間の角度、1つ又は複数の物体にかかる圧力、1つ又は複数の物体の表面の特徴又は1つ又は複数の物体の加速のうちの1つ又は複数に関連するデータを含む。
例えば、センサ120は、第1のユーザ102が着用するか、第1のユーザ102が着用する物品、例えば、ユーザの指、手及び/又は腕の動作及び/又は力を検出する運動追跡手袋に組み込まれてもよい。いくつかの例では、センサ120は、第1のユーザ102によって使用される1つ又は複数のツール、例えば、ユーザが使用中のツールの動作及び力を検出するための1つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ102は、第1のユーザ102、第1のユーザ102の作業空間、あるいはユーザが表面に加えた力を検出するフォースパッド、例えば、作業面、ワークピース、ツール又は第1のユーザ102の加速度を検出する慣性測定ユニット(IMU)など、第1のユーザ102が相互作用する物体に関連するデータを感知する外部センサである。いくつかの例では、センサ102は、第1のユーザ102の身体又は手の動きの3Dモデルの作成を可能にする加速度計を備えた着用可能な手袋を含む。
ドメイン文書104は、タスクの実行を記述するテキストデータを含む。ドメイン文書104の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト、不具合報告、機械情報又は他の書面によるガイドが含まれる。第1のユーザ102は、ドメイン文書104を演算処理エンジン130に提供してもよい。演算処理エンジン130は、テキスト認識を実施して、タスクの実行を記述するテキストデータを抽出し、そのようなテキストデータを機械学習システム112に提供する。
ドメインモデル114は、第1のユーザ102が実行するタスクのモデルを提供する。典型的には、ドメインモデル114は、第1のユーザ102からの知識を統合し、第1のユーザは、1人以上のSMEであることがある。いくつかの例では、ドメインモデル114は、タスクの実行に関連する機械、技術及び工芸のドメインでのタスク及び/又は手順の技能を実施中の専門家の意思決定の基本モデルを迅速に形成するように構成された、第1のユーザ102との面談過程中に最初に生成される。いくつかの例では、面談過程は、タスクを実行するための段階的な過程、第1のユーザ102が遭遇する可能性のある問題、そのような問題の解決策、第1のユーザ102がタスクの実行中に遂行する技術、あるいは第1のユーザ102が注意を払うことが重要であると考えられる詳細を記述する第1のユーザ102による一人称の説話の形態をとってもよい。典型的には、面談は形式知と暗黙知の両方を引き出すように構成される。例えば、面談は、形式知を引き出した後に暗黙知を引き出すための一連の追跡質問を続けるためにSMEによって与えられたタスクの実行を記述する説話の形態をとってもよい。暗黙知の質問は、典型的には探索的なものである。例えば、暗黙知を引き出すように設計された探索的質問では、「ステップを開始する前に何を検査するのか?」又は「どのように進捗状況を測定するのか?」と尋ねる場合がある。第1のユーザ102が提供した回答に基づいて、追加の追跡質問を実施してもよい。
いくつかの例では、演算処理エンジン130は、タスクに関連する文書からドメインモデル114を最初に生成してもよい。いくつかの例では、演算処理エンジン130は、ドメインモデル114を生成するか更新するために、規則に基づく手法を適用してもよい。例えば、ドメインモデル114は、ツールを使用して測定を実施する前に、ツールの較正を実施しなければならないという規則を特定してもよい。演算処理エンジン130は、そのような規則を使用して、タスクを実行する際にステップを識別するか解明するか、あるいはドメインモデル114によってモデル化されたタスクの実行の際に欠落しているステップを識別してもよい。いくつかの例では、第1のユーザ102(例えば、1人以上のSME)が、ドメインモデル114にて成文化されているそのような規則を提供する。
機械学習システムを使用して画像を処理し、画像に関するさまざまなデータを生成してもよい。例えば、機械学習システムが、画像を処理して、画像内の1つ又は複数の物体を識別してもよい。一部の機械学習システムが、畳み込みニューラルネットワークなどのニューラルネットワークによって生成されたモデルを適用して、画像を処理してもよい。機械学習システムでは、正確なモデルを構築するために大量の「訓練データ」が必要になる場合がある。しかし、一度訓練すると、機械学習システムは、以前は人間だけが実行することができると考えられていたさまざまな画像認識タスクを実行することができる可能性がある。例えば、機械学習システムを、警備、商業的用途、科学的及び動物学的な研究、在庫管理や品質管理などの工業的用途など、さまざまな用途で使用してもよい。
演算処理エンジン130は、機械学習システム112を収集データ(例えば、ドメイン文書104、動画データ107、音声データ109及び/又はセンサデータ121)に適用して、タスクの実行を規定するドメインモデル114を更新するか改良する。いくつかの例では、ドメイン文書104、動画データ107、音声データ109及び/又はセンサデータ121はベクトル及びテンソル(例えば、多次元配列)に変換される。ベクトル及びテンソルには、機械学習システム112が、線形代数的演算、非線形演算、あるいはこれとは別の計算演算などの数学演算を適用する場合がある。いくつかの例では、機械学習システム102は、深層学習の分野からの技術を適用する。いくつかの例では、機械学習システム102は、教師あり学習システム、教師なし学習システム、半教師あり学習システム又は強化学習システムの一例である。
機械学習システム112は、動画データ、テキストデータ、音声データ及び/又はセンサデータを含む(図1には描写していない)訓練サンプルデータを用いて機械学習システム112を訓練することによって初期化されてもよい。いくつかの例では、機械学習システム112は、そのような訓練サンプルデータを使用して、機械学習モデルを教示して、動画データ、テキストデータ、音声データ及び/又はセンサデータに描写された要素を識別し、機械学習システム112を訓練して、さまざまな要素に異なる重みを割り当て、そのような要素に異なる係数を適用することなどによってそのような要素が多かれ少なかれ互いに関連する可能性が高いかどうかを判定する。
いくつかの例では、機械学習システム112は、動画データ107にて認識された物体を、音声データ108内の物体への参照、ドメイン文書104から得られたテキストデータ及び/又はセンサデータ121に相関させることによってドメインモデル114を更新し、タスクを実行するための複数のステップのうちの同じステップを記述する動画データ107の一部、音声データ109の一部、テキストデータの一部及び/又はセンサデータ121の一部を識別する。いくつかの例では、機械学習システム112は、タスク学習を実施して、第1のユーザ102が実行するタスクを1つ又は複数のステップに一般化する。いくつかの例では、機械学習システム112は、1つ又は複数のテンプレートを適用して、第1のユーザ102によるタスクを1つ又は複数のステップに一般化してもよい。
演算処理エンジン130は、ドメインモデル116を適用して、タスクを実行するための訓練情報117を生成し、訓練情報117を知識データベース116に保存する。第2のユーザ118は、知識データベース116に保存された訓練情報117にアクセスして、タスクを実行する際に第2のユーザ118を訓練してもよい。訓練情報117は、例えば、第2のユーザの問い合わせに関連する訓練情報を取得するための概念、タスク又は副次的タスクによって第2のユーザが知識データベース116を検索し得るように相互参照された、タスクの実行の動画データ、音声データ、テキストデータ及びセンサデータの一部を含む。例えば、訓練情報117は、動画データ107にて認識された物体、動画データ107にて認識された物体を記述する音声データ109の一部、動画データ107にて認識された物体に関連するドメイン文書104の一部及び/又は動画データ107にて認識された物体に関連するタスクのステップの実行中にセンサ120から取得されたセンサデータを含んでもよい。いくつかの例では、訓練データ117は、第2のユーザ118のために個人化される。いくつかの例では、知識データベース116は、タスクを実行するために第2のユーザ118を訓練する際に使用するために、訓練情報117を第2のユーザ118に出力する。いくつかの例では、知識データベース116は、第2のユーザ118の一人称視点から、タスクの実行を描写する拡張現実動画の形態で訓練情報117を出力する。他の例では、知識データベース116は、タスクを実行するために第2のユーザ118を訓練するための対話型技術マニュアルの形態で訓練情報117を出力する。
いくつかの例では、知識データベース116は、第2のユーザ118から、タスクを実行するための命令又はタスクを実行するための複数のステップのうちの1つのステップに対する問い合わせを受信する。問い合わせに応答して、知識データベース116は、ドメインモデル114を適用して、タスクを実行するための訓練情報117又はタスクを実行するための複数のステップのうちのその1つのステップを生成し、そのような訓練情報117を第2のユーザ118に出力する。例えば、タスクのためにモデル化された手順及びシステム100の環境から観察されたデータから導出されたドメインモデル114の現在の状態を前提として、演算処理エンジン130は、ドメインモデル114を使用して、第2のユーザ118によって実施される次のステップを予測するか識別し、そのような次のステップの実施を提案してもよい。このため、演算処理エンジン130は、ドメインモデル114を使用して、SMEがタスクを実行する際に実施するであろう次のステップを識別し、例えば、タスクを実行するために第2のユーザ118を訓練するためにそのようなステップを提案してもよい。さらに、演算処理エンジン130は、ドメインモデル114を使用して、例えば、初心者ユーザによって実施されたステップと、SMEによって実施されたステップとを比較して、初心者ユーザの実績を評価してもよい。
図2は、本開示の技術に従って訓練情報を生成するための例示的な計算システム200を示すブロック図である。図2の例では、計算システム200は、演算処理エンジン130、1つ又は複数の入力装置252及び1つ又は複数の出力装置254を備える。いくつかの例では、計算システム200は、互いに相互接続された1つ又は複数の計算装置、例えば、1つ又は複数の携帯電話、タブレット型コンピュータ、ラップトップ型コンピュータ、デスクトップ型コンピュータ、サーバ、モノのインターネット(IoT)装置などを備える。いくつかの例では、計算システム200は単一の計算装置である。いくつかの例では、計算システム200は、複数の計算装置にわたって分散され、コンピュータネットワークによって相互接続されている(例えば、クラウドベースのアプリケーションとして実装されている)。
図2の例では、計算システム200は、1つ又は複数の入力装置252を介して演算処理エンジン130にユーザ入力を提供してもよい。計算システム200のユーザが、1つ又は複数の入力装置252を介して計算システム200に入力を提供してもよい。入力装置には、キーボード、マウス、マイク、タッチスクリーン、タッチパッド、あるいは1つ又は複数のハードウェアユーザインターフェースを介して計算システム120に結合された別の入力装置が含まれる場合がある。さらに、計算システム200は、入力装置252を介して、さまざまな他の情報源からのデータ、例えば、以下でさらに詳細に説明するように、演算処理エンジン130のさまざまな構成要素によって処理される図1のドメイン文書104、図1の1つ又は複数の動画装置106を介した動画データ107、図1の1つ又は複数の音声装置108を介した音声データ109、あるいは図1の1つ又は複数のセンサ120を介したセンサデータ121を受信してもよい。
入力装置252は、演算処理エンジン130との接続を確立するためのハードウェア及び/又はソフトウェアを含んでもよい。いくつかの例では、入力装置252は、直接的な有線接続、インターネットなどのネットワーク、あるいは任意の公共通信ネットワーク又は私的通信ネットワーク、例えば、ブロードバンド、セルラー、Wi-Fi、及び/又は計算システムと、サーバと、計算装置との間でデータを送信できる他のタイプの通信ネットワークを介して、演算処理エンジン130と通信してもよい。入力装置252は、センサデータを受信するための任意の適切な通信技術を使用して、そのような接続を介してデータ、制御信号、コマンド及び/又は他の情報を送受信するように構成されてもよい。いくつかの例では、入力装置252及び演算処理エンジン130はそれぞれ、1つ又は複数のネットワークリンクを使用して同じネットワークに動作可能に結合されてもよい。入力装置252と演算処理エンジン130とを結合するリンクは、無線広域ネットワークリンク、無線ローカルエリアネットワークリンク、イーサネット(登録商標)、非同期転送モード(ATM)又は他のタイプのネットワーク接続であってもよく、そのような接続は、無線及び/又は有線の接続であってもよい。
出力装置254には、ディスプレイ、音源カード、ビデオグラフィックスアダプタカード、スピーカ、存在感知スクリーン、1つ又は複数のUSBインターフェース、動画及び/又は音声の出力インターフェース、あるいは触覚、音声、動画又は他の出力を生成することができる任意の他のタイプの装置が含まれてもよい。出力装置254には、液晶ディスプレイ(LCD)、量子ドットディスプレイ、ドットマトリックスディスプレイ、発光ダイオード(LED)ディスプレイ、有機発光ダイオード(OLED)ディスプレイ、陰極線管(CRT)ディスプレイ、電子インク、あるいは触覚、音声及び/又は視覚の出力を生成することができるモノクロ、カラー又は他のタイプのディスプレイを含む技術を使用する出力装置として機能し得るディスプレイ装置が含まれてもよい。他の例では、出力装置254は、音源カード、ビデオグラフィックスアダプタカード、スピーカ、存在感知スクリーン、1つ又は複数のBSインターフェース、動画及び/又は音声の出力インターフェース、あるいは触覚、音声、動画又は他の出力を生成することができる任意の他のタイプの装置を介するなど、別の方法でユーザへの出力を生成してもよい。いくつかの例では、出力装置254には、1つ又は複数の入力装置としても1つ又は複数の出力装置としても動作するユーザインターフェース装置として機能し得る存在感知ディスプレイが含まれてもよい。いくつかの例では、出力装置が、有線又は無線の接続を介して別の計算装置にデータを送信するための1つ又は複数のインターフェースを備える。
演算処理エンジン130は、機械学習システム112、ドメインモデル114、テキスト認識ユニット202、音声認識ユニット212、動画認識ユニット214及び訓練ユニット210を備える。構成要素112、114、202、210、212及び214のそれぞれは、図1の類似の構成要素と実質的に類似の方法で動作してもよい。演算処理エンジン130は、処理回路256によって実行可能であり、記憶装置258に記憶されたソフトウェア、あるいはハードウェアとソフトウェアの組み合わせを表してもよい。そのような処理回路256は、マイクロプロセッサ、コントローラ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは同等の個別論理回路又は集積論理回路のうちの任意の1つ又は複数を備えてもよい。記憶装置258には、1つ又は複数のプロセッサに、命令に起因する行動を実施させるための実行可能な命令を含むランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能なプログラム可能読み取り専用メモリ(EPROM)、電子的に消去可能なプログラム可能読み取り専用メモリ(EEPROM)、フラッシュメモリなどのメモリが含まれてもよい。
テキスト認識ユニット202は、ドメイン文書104を受信し、テキスト認識を実施して、機械学習システム112による使用に適したテキストデータを取得する。ドメイン文書104の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト、タスクの実行の際に使用されるツールそれぞれの取扱説明書、完成製品の回路図又は仕様、SMEによって提供された書面による説話又は他の書面によるガイドが挙げられる。いくつかの例では、テキスト認識ユニット202は、第1のユーザ102(例えば、SME)、(例えば、会社又はインターネットなどの外部情報源によって維持される)技術文書の保存場所、他のユーザなどからドメイン文書104を取得してもよい。いくつかの例では、テキスト認識ユニット202は、ドメイン文書104に対してテキスト認識を実施するための機械学習システムを実装する。いくつかの例では、テキスト認識ユニット202は、既製のテキスト認識ソフトウェアを使用して、ドメイン文書104上でテキスト認識を実施する。
動画認識ユニット214は、図1の動画装置106から動画データ107を受信し、物体認識を実施して、動画データ107に描写された1つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット214は、第1のユーザ102、第1のユーザ102が使用する1つ又は複数のツール、第1のユーザ102が相互作用する1つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット214は、動画データ107を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。例えば、動画認識ユニット214は、骨格姿勢データ、関節認識、手ぶり認識などはじめとする第1のユーザ102の人間姿勢データによって動画データ107に注釈を付ける。いくつかの例では、動画認識ユニット214は、動画データ107のフレームにて検出された人間の骨格又は関節の注釈などの物体検出データ、あるいは動画データ107のフレームにて認識されたツール、ワークピースなどの物体の注釈によって動画データ107に注釈を付ける。いくつかの例では、動画認識ユニット214は、動画データ107のフレームが特定の物体を描写する信頼スコア又は確率を判定する。例えば、動画認識ユニット214は、動画データ107内の各フレームに、フレーム内に描写されていると認識された1つ又は複数の物体によって注釈を付けてもよい。複数の視点から複数のカメラを使用することにより、環境、ツール又はワークピースとの第1のユーザ102の相互作用を理解する際に、機械学習システム112にとっていっそう包括的でいっそう有益な動画データ107の作成が可能になる。例えば、複数の角度からの動画データが、物体の隠蔽の事例を減らすことによって物体認識を支援し、SME、ツール又はワークピースによる動きの近景を複数の視点から提供してもよい。例えば、動画認識ユニット214は、第1の動画装置106からの動画データにて認識された物体を使用して、第2の動画装置106に存在する部分的に隠蔽された物体などの物体の識別を支援してもよい。さらに、動画認識ユニット214は、認識された一連の行動が2つの物体の非常に近くで実施されるときに、AIを適用して物体の識別を円滑なものにしてもよい。動画認識ユニット214は、複数の視点からのそのような動画データ107を使用して、第1のユーザ102、ツール及びワークピースを含む環境の3Dモデルを構築するほか、第1のユーザ102とそのようなツール及びワークピースとの間の相互作用をモデル化する。いくつかの例では、動画認識ユニット214は、機械学習システムを使用して、動画データ107に対して人間の姿勢検出及び/又は物体認識を実施する。いくつかの例では、動画認識ユニット214は、既製の物体認識ソフトウェアを使用して、動画データ107に対して人間の姿勢検出及び/又は物体認識を実施する。
音声認識ユニット212は、図1の音声装置108から音声データ109を受信し、発話認識を実施して、音声データ109内に存在する1つ又は複数の物体又は概念への参照を識別する。いくつかの例では、音声データ109は、タスクを実行している間の第1のユーザの行動を記述する第1のユーザ102による説話を含む。他の例では、音声データ109は、例えば、タスクを実行する前又は後の第1のユーザ102の面談中など、第1のユーザがタスクを実行していない間にタスクを実行する方法を記述する第1のユーザ102による説話を含む。いくつかの例では、音声認識ユニット212は、機械学習を使用して、音声データ109に対して発話認識を実施する。いくつかの例では、音声認識ユニット212は、既製の音声認識ソフトウェアを使用して、音声データ109に対して発話認識を実施する。
機械学習システム112は、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータを相関させて、タスクを実行するための複数のステップのうちの同じステップを記述する動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータの少なくとも一部を識別する。さらに、機械学習システム112は、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータの相関部分を処理して、ドメインモデル114を更新する。本明細書に記載のように、タスクを、所与の目的を達成するために実施される複数のステップとして概念化してもよい。このため、ドメインモデル114は、タスクの目標を達成するために第1のユーザ102が実施する複数のステップ又は操作を規定することによって、タスクの実行を規定する。いくつかの例では、ドメインモデル114は、オントロジー、一群の関連する概念又は物体、実体、行動、事象又はタスクの実行に関連する規則(例えば、意味規則)のうちの少なくとも1つを規定することによって、タスクの実行を規定する。いくつかの例では、ドメインモデル114は、オントロジー、一群の関連する概念又は物体、実体、行動、事象又はタスクの実行に関連する規則(例えば、意味規則)のうちの少なくとも1つを規定することによって、タスクの実行をモデル化する。オントロジーとは、さまざまな物体間の意味関係であり、機械学習システム112によって作成されても、第1のユーザ102などのSMEによって手動で作成されてもよい。機械学習システム112は、動画データ107、音声データ109及びドメイン文書104から取得されたテキストデータ内に存在する関係を識別することによって、一群の関連する用語、概念又は物体を検出するためにクラスタリングを実施してもよい。機械学習システム112は、動画データ107に対して実施される物体検出及びドメイン文書104から取得されたテキストデータからのテキストの意味抽出を使用することによって実体を識別してもよい。機械学習システム112は、動画データ107に対して活動シーケンス認識を実施し、ドメイン文書104から取得されたテキストデータからテキストの意味抽出を実施することによって、事象(例えば、実施されている行動)を識別してもよい。意味規則とは、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得したテキストデータを融合する(例えば、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得したテキストデータを処理して、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得したテキストデータ内に存在する実体と、物体と、行動との間の関係を識別する)ための規則である。いくつかの例では、意味規則は、第1のユーザ102などのSMEによって手作りされている。
一例として、機械学習システム112は、動画データ107に描写された物体を識別し、音声データ109から物体への参照を識別し、動画データ107に描写された物体を音声データ109内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させてもよい。次に、機械学習システム112は、例えば、オントロジー、実体、行動、事象又はタスクの実行を規定するドメインモデル114の規則を規定するための相関を使用することによって、動画データ107から識別された物体と音声データ109から識別された物体への参照との相関に基づいてドメインモデル114を規定してもよい。
いくつかの例では、機械学習システム112は、共クラスタリングを適用して、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータのそれぞれからタスク名、物体、ツールなどのようなドメイン関連の意味情報を抽出して、ドメインモデル114の概念のオントロジーを構築するか拡張する。例えば、機械学習システム112は、共クラスタリングアルゴリズムなどの教師なし機械学習を適用して、一群の関連する概念及び用語を検出してもよい。
いくつかの例では、機械学習システム112は、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得したテキストデータを相関させて、動画データ107、音声データ109、センサデータ121及びタスクを実行するための複数のステップのうちの同じステップを記述するドメイン文書104から取得されたテキストデータの少なくとも一部を識別する第1の機械学習システムを実装する。例えば、第1の機械学習システムは、動画データ107の少なくとも一部から、タスクを実行する際に使用される1つ又は複数の物体を識別する。第1の機械学習システムは、音声データ109の少なくとも一部から、タスクを実行する際に使用される1つ又は複数の物体への参照を識別する。第1の機械学習システムは、センサデータ121の少なくとも一部から、タスクを実行する際に使用される1つ又は複数の物体の1つ又は複数の物理的測定値を識別する。第1の機械学習システムは、動画データ107から識別された1つ又は複数の物体を、音声データ109から識別された1つ又は複数の物体への参照及びセンサデータ121から識別された1つ又は複数の物体の物理的測定値に相関させる。
別の例として、機械学習システム112は、相関する動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータを処理して、タスクの実行を規定するドメインモデル114を更新する第2の機械学習システムを実装する。例えば、第2の機械学習システムは、動画データ107と、音声データ109と、センサデータ121と、ドメイン文書104から取得されたテキストデータとの間の相関に基づいて、オントロジー、実体、行動、事象、あるいはドメインモデル114によって記述されたタスクの実行を規定する規則を規定する。
訓練ユニット210は、ドメインモデル114を適用して、訓練情報117を生成するか、タスクを実行するために別のユーザ(例えば、図1の第2のユーザ118)を訓練する際に使用する。訓練情報117は、例えば、タスク、タスクを構成する複数のステップのうちの1つ又は複数のステップ、あるいはタスクに関連する物体(例えば、ツール又はワークピース)に関連する、例えば、動画データ、音声データ、センサデータ及び/又はテキストデータを含み、各タイプのデータは、他の各タイプのデータと相互参照され、第2のユーザが概念、タスク又は副次的タスクによって知識データベースを検索して、第2のユーザの問い合わせに関連する音声、動画、センサ又はテキストの情報を取得する。
いくつかの例では、訓練ユニット210は、出力装置254を介して、訓練情報117を図1の知識データベース116に出力して、1人以上のユーザが使用する訓練情報の保存場所を作成する。いくつかの例では、訓練ユニット210は、出力装置254を介して、訓練情報117を、例えば、図1の第2のユーザ118に出力して、タスクを実行するために第2のユーザ118を訓練する。
個人化ユニット204が、上記の技術を使用して図1の第1のユーザ102から取得した訓練情報を、第2のユーザ117の個人化された訓練情報に変換する。一例として、訓練ユニット210は、図1の第1のユーザ102の第1の言語の訓練情報を取得する。個人化ユニット204は、第1のユーザ102の第1の言語の訓練情報から、第2のユーザ118の第2の言語の訓練情報117を生成する。これは、タスクを実行するために第2のユーザ118を訓練するのにいっそう有用である場合がある。いくつかの例では、個人化ユニット204は、異なる言語で会社が作成したドメイン文書104を活用して、タスクを規定する際にドメインモデル114の要素に適用され得る用語を判定してもよい。いくつかの例では、個人化ユニット204は、既製の翻訳ツールを使用して、訓練情報117を第1の言語から第2の言語に翻訳するのを支援してもよい。
訓練マニュアル生成ユニット206は、上記の技術を使用して図1の第1のユーザ102から取得した訓練情報を、タスクを実行するために第2のユーザ118の訓練で使用する訓練マニュアルに変換する。いくつかの例では、そのような訓練マニュアルはテキスト文書であってもよい。いくつかの例では、そのような訓練マニュアルは、テキスト、音声及び/又は動画の情報の形態の双方向マルチメディアマニュアルであってもよい。このようなマニュアルと、第2のユーザ118は、いっそう包括的又は効果的な訓練体験を経験するように相互に作用してもよい。
拡張現実コンテンツユニット208は、上記の技術を使用して図1の第1のユーザ102から取得した訓練情報を、タスクを実行するために第2のユーザ118の訓練で使用する拡張現実コンテンツに変換する。訓練ユニット210は、そのような拡張現実コンテンツを、例えば、第2のユーザ118が着用するヘッドマウントディスプレイ(HMD)に出力して、SMEによるタスクの実行の経験的な一人称視点を提供してもよい。いくつかの例では、拡張現実コンテンツは、第1のユーザ102によるナレーションなどの音声データ109の関連部分と、タスクを実行するときの第1のユーザ102の視点などの動画データ107の関連部分とを含んでもよい。いくつかの例では、第2のユーザ118は、拡張現実コンテンツが第1のユーザ102によるタスクの実行を複製するセンサデータ121に基づいて力フィードバックを提供し得るように、力フィードバックを提供するコントローラと相互作用してもよい。
図3は、本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャートである。便宜上、図3は、図1及び図2に関して描写されている。
図3の操作に描写するように、システム100は、タスクを実行する第1のユーザ102の能動的知識獲得を実施する(304)。第1のユーザ102の能動的知識獲得は、システム100が、タスクの実行に関連するSMEの形式知を獲得することを可能にするほか、タスクの実行に関連するSMEのいくらかの暗黙知の獲得を可能にしてもよい。いくつかの例では、システム100は、適切に構造化された面談の形態で能動的知識獲得を実施する。いくつかの例では、能動的知識獲得中に、演算処理エンジン130は、訓練指向の情報を引き出すために、第1のユーザ102への一連の質問を生成する。いくつかの例では、一連の質問には、タスクの目的、タスクの簡単な説明、一連の作業の最終目標及びタスクの実行の実演が含まれる。いくつかの例では、第1のユーザ102が正常な手順から逸脱する場合、演算処理エンジン130は、第1のユーザ102に、逸脱及び逸脱の目的などの説明を提供するように促す。
例えば、動画装置106は、タスクを実行する第1のユーザ102の動画データ107を取得する。動画データ107は、複数のカメラソースを含んでもよい。例えば、動画装置106は、第1の動画装置及び第2の動画装置を含む。第1の動画装置は、第1のユーザ102の一人称視点の観点から、タスクを実行する第1のユーザ102の動画データを取得するように構成される。第2の動画装置は、第1のユーザ102の第三者視点の観点から、タスクを実行する第1のユーザ102の動画データを取得するように構成される。
さらに、音声装置108は、タスクを実行する第1のユーザ102の音声データ109を取得する。能動的知識獲得の間、音声データ109は、タスクを能動的に実施している間の第1のユーザの行動を記述する第1のユーザ102による説話を含む。
さらに、センサ装置120は、タスクを実行する第1のユーザ102のセンサデータ121を取得する。センサ120は、例えば、1つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ120は、第1のユーザ102が着用するか、第1のユーザ102が着用する物品、例えば、ユーザの指、手及び/又は腕の運動及び/又は力を検出する運動追跡手袋に組み込まれる。いくつかの例では、センサ120は、第1のユーザ102が使用する1つ又は複数のツール、例えば、ユーザが使用中のツールの運動及び力を検出するための1つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ102は、第1のユーザ102、第1のユーザ102の作業空間、あるいはユーザが表面に加えた力を検出する力パッドなどの第1のユーザ102が相互作用する物体、例えば、作業面、ワークピース、ツール又は第1のユーザ102の加速度を検出するIMDに関連するデータを感知する外部センサである。
システム100は、タスクを実施する第1のユーザ102の受動的知識獲得をさらに実施する(304)。第1のユーザ102の受動的知識獲得は、システム100が、タスクの実行に関連するSMEの形式知と暗黙知の両方を獲得することを可能にする。例えば、受動的知識獲得の間に、音声装置108は、例えば、タスクを実行する前又は後の第1のユーザ102の面談中など、第1のユーザがタスクを実行していない間にタスクを実行する方法を記述する第1のユーザ102による説話を含む音声データ109を取得する。
さらに、演算処理エンジン130のテキスト認識ユニット202は、タスクの実行に関連するドメイン文書104の形態でテキストデータを受信する。ドメイン文書104の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト又は他の書面によるガイドが含まれる。テキスト認識ユニット202は、テキスト認識を実施して、ドメイン文書104から会社固有の用語を抽出する(302)。いくつかの例では、テキスト認識ユニット202は、テキスト認識を実施して、機械学習システム112による使用に適したテキストデータを取得する。演算処理エンジン130は、そのようなテキストデータによって機械学習システム112を訓練して、その結果、機械学習システム112を訓練してタスクを正確に識別し、第2のユーザ118のための有用なドメインモデル及び/又は訓練情報を洗練するために必要な訓練例の数を減らしてもよい。このため、本開示の技術を使用する機械学習システム112は、有用な出力(例えば、タスクを実行するために第2のユーザ118を訓練するための訓練情報117)を提供するために最小限の数の訓練サンプルデータのみを必要としてもよい。いくつかの例では、機械学習システム112は、タスクを実行するSMEの3つの例から知識を獲得し、SMEから獲得した知識を、タスクを実行する初心者の例と比較した後、タスクを実行するために第2のユーザ118を訓練するための訓練情報117を生成することができる。
ドメイン文書104が特定のタスクに利用することができない例では、機械学習システム112は、代わりに、規則に基づく手法を適用してマルチモーダルデータを処理し、ドメインモデル114がタスクの実行をさらに正確に記述するようにドメインモデル114を更新してもよい。これとは別に、あるいはこれに加えて、機械学習システム112は、1つ又は複数のテンプレートを適用して、マルチモーダルデータを処理し、ドメインモデル114を更新するか改良してもよい。
音声認識ユニット212は、音声データ109を受信し、第1のユーザ102の口述から、タスクの実行に関連する第1の意味情報を抽出する(308)。例えば、音声認識ユニット212は、発話認識を実施して、音声データ109内に存在する1つ又は複数の物体又は概念への参照を識別する。いくつかの例では、第1のユーザ102の口述は、ワークピースが4ミクロン以内の平坦性を有することを確実なものにするための検査操作を実施するなどの機械保守活動の記述を含む。第1のユーザ102は、検査操作を実施する前、実施中又は実施した後に、この説話を提供してもよい。以下に説明するように、第1のユーザ102による検査操作のこの記述の時系列の発生に関係なく、機械学習システム112は、この記述を動画データ107から抽出されたこの検査操作の発生に相関させてもよい。いくつかの例では、音声認識ユニット212は、複雑な発話認識を実施して、複数の文にわたって散在する形式知及び暗黙知を抽出してもよい。
動画認識ユニット214は、動画データ107を受信し、動画データ107から、タスクの実行に関連する第2の意味情報を抽出する(310)。例えば、動画認識ユニット214は、物体認識を実施して、動画データ107に描写された1つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット214は、第1のユーザ102、第1のユーザ102が使用する1つ又は複数のツール、第1のユーザ102が相互作用する1つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット214は、動画データ107を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。いくつかの例では、動画認識ユニット214は、動画データ107に対して活動認識を実施する。活動認識は、典型的には、座る、立つ、歩くなどの人間の運動を識別するために実施されてもよい。図3の例では、動画認識ユニット214は、活動認識を実施して、洗浄する、ボルトを緩める、ディスクを取り外す、ダイヤルゲージを使用して平坦度を検査するなどの非常に細かい手の操作などの機械保守行動を識別する。いくつかの例では、動画認識ユニット214は、複雑な人間の姿勢及び/又は物体認識を実施して、複数の異なる動画ソースに散在する形式知及び暗黙知を抽出し、そのような知識を音声データ109から抽出された知識と相互参照してもよい。
機械学習システム112は、センサデータ121を処理して、センサデータ121から、タスクの実行に関連する第3の意味情報を抽出する(309)。例えば、機械学習システム112は、第1のユーザ102による微小移動又は運動、あるいは第1のユーザ102によるツール又はワークピースなどの1つ又は複数の物体との相互作用に対応するセンサデータ121の部分を識別してもよい。
機械学習システム112は、複数のモダリティからの情報を融合する(312)。例えば、機械学習システム112は、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータを処理して、ドメインモデル114を更新する。ドメインモデル114は、第1のユーザ102が実行するタスクのモデルを提供する。いくつかの例では、ドメインモデル114は、特定の目標を達成するために実施される複数のステップとしてタスクをモデル化する。いくつかの例では、ドメインモデル114は、タスクの実行に関連するオントロジー、クラスター、実体、行動、事象又は規則(例えば、意味規則)のうちの少なくとも1つを規定することによってタスクをモデル化する。例えば、機械学習システム112は、動画データ107に描写された物体を識別し、音声データ109から物体への参照を識別し、動画データ107に描写された物体を音声データ109内の物体への参照に相関させることによって、動画データ107の一部を音声データ109の一部に相関させてもよい。次に、機械学習システム112は、例えば、オントロジー、実体、行動、事象、あるいはタスクの実行を規定するドメインモデル114の規則を規定するための相関を使用することによって、動画データ107から識別された物体と音声データ109から識別された物体への参照との相関に基づいて、ドメインモデル114を規定してもよい。
別の例として、機械学習システム112は、センサデータ121を処理して、さまざまなタイプの複数のセンサ120のそれぞれからのデータを、動画データ107及び/又は音声データ109と同期させる。例えば、機械学習システム112は、動画データ107に描写された第1のユーザ102の行動を識別し、動画データ107に描写された行動と同時に生成されたセンサデータ121の一部を識別し、動画データ107に描写された行動を、動画データ107に描写された行動と同時に生成されたセンサデータ121の部分に相関させることによって、動画データ107の一部をセンサデータ121の一部に相関させてもよい。一例では、機械学習システム112は、センサ120から、ワークピースの表面の変化を記述するセンサデータ121を受信する。さらに、機械学習システム112は、第1のユーザ102の人間の姿勢データによって注釈が付けられた動画データ107を受信する。機械学習システムは、センサデータ121及び動画データ107を処理して、ワークピースの表面の変化を、動画データ107の人間の姿勢データのほか、他の機械ログに描写された第1のユーザ102の身体の動きと相関させて、タスクを実行するための複数のステップのうちの1つ又は複数のステップを実施するために第1のユーザ102によって実施される物理的動きのモデルを構築する。
別の例として、機械学習システム112は、動画データ107及び音声データ109を処理して、動画データ107を音声データ109に相関させて、タスクを実行するための複数のステップのうちの1つのステップを描写する動画データ107の少なくとも一部と、タスクを実行するための複数のステップのうちの同じステップを記述する音声データ109の少なくとも一部とを識別する。例えば、機械学習システム112は、音声データ109から取得された第1の意味情報及び動画データ107から取得された第2の意味情報から、タスクを実行するための複数のステップのステップのうちの1つのステップを描写する動画データ107の少なくとも一部と、タスクを実行するための複数のステップのうちの同じステップを記述する音声データ109の少なくとも一部とを識別する。本明細書に記載のように、「意味情報」は、システム100が、音声データ109、動画データ107、ドメイン文書104及びセンサデータ121などの環境から取得する、タスクの実行に関する意味のある情報を指す。例えば、機械学習システム112は、音声データ109及び動画データ107から取得されたそのような第1及び第2の意味情報から、文のタイプ(例えば、行動、警告、ツールのリスト、前提条件)のほか、行動文から派生した行動、物体又はツールなどの意味情報を識別してもよい。機械学習システム112は、例えば、動画データ107、音声データ109、センサデータ121及びドメイン文書104からのそのような意味情報を融合して、タスクを実行するための一貫した一連の意味ステップを作成する。
いくつかの例では、演算処理エンジン130は、タスクを実行するための1つ又は複数のステップでの曖昧さ及び/又はタスクの実行での1つ又は複数の意味論的な差異又は不一致を識別する(314)。例えば、演算処理エンジン130は、例えば、第1のユーザ102によるタスクの実行の動画データ107と、第1のユーザ102によって提供されたタスクの実行の記述を含む音声データ109との間の不一致を識別してもよい。演算処理エンジン130は、そのような不一致又は差異の説明について第1のユーザ102に問い合わせてもよい。いくつかの例では、演算処理エンジン130は、タスクの目標を使用して、説明のために第1のユーザ102への問い合わせを生成する。例えば、演算処理エンジン130は、機器の使用が最初に較正を必要とし、機器の読み取りが常に検査する範囲を有することを認識してもよい。このため、第1のユーザ102が、機器を較正せずに機器の読み取りに依存する場合、演算処理エンジン130は、理由を説明するために第1のユーザ102への問い合わせを生成してもよい。演算処理エンジン130は、第1のユーザ102から受信した動画データ107と音声データ109との間の識別された意味論的差異の説明を使用して、ドメインモデル114を更新し、その結果、タスクの実行中にドメインモデル114の精度を高め、第1のユーザ102によって実施される行動のあらゆる曖昧さを低減してもよい。
いくつかの例では、システム100は、タスクを実行する第1のSMEの第1の動画データ、タスクの実行をナレーションする第1のSMEの第1の音声データ、タスクを実行する第2のSMEの第2の動画データ及びタスクの実行をナレーションする第2のSMEの第2の音声データを取得することによって、第1のSME及び第2のSMEからタスクを実行するための知識を獲得してもよい。機械学習システム112は、タスクを実行する第1のSMEの第1の動画データを、タスクの実行をナレーションする第1のSMEの第1の音声データに相関させる。機械学習システム112は、タスクを実行する第2のSMEの第2の動画データを、タスクの実行をナレーションする第2のSMEの第2の音声データにさらに相関させる。機械学習システム112は、タスクを実行する各SMEの相関した動画データ及び音声データをさらに処理して、第1のSMEによるタスクの実行と第2のSMEによるタスクの実行との間の意味論的な差異又は不一致を識別する。演算処理エンジン130は、意味論的差異の説明について第1のSME及び第2のSMEに問い合わせ、演算処理エンジン130は、結果として生じる意味論的差異の説明によってドメインモデル114を更新してもよい。
いくつかの例では、システム100は、タスクを実行するSMEの第1の動画データ、タスクの実行をナレーションするSMEの第1の音声データ、タスクを実行する初心者ユーザの第2の動画データ及びタスクの実行をナレーションする初心者ユーザの第2の音声データを取得することによって、第1のユーザ及び第2のユーザ(例えば、それぞれSME及び初心者ユーザ)からタスクを実行するための知識を獲得してもよい。演算処理エンジン130は、上記の例と類似の方法で、SMEと第2のユーザとによるタスクの実行の間の意味論的な差異又は不一致を識別してもよい。さらに、訓練ユニット210は、SMEによるタスクの実行と第2のユーザによるタスクの実行との間の識別された意味論的差異を記述するフィードバックを生成してもよく、出力装置254は、表示のために第2のユーザに出力して、タスクの実行の際に第2のユーザを案内してもよい。
いくつかの例では、システム100は、タスクを実行するSMEの第1の動画データ、タスクの実行をナレーションするSMEの第1の音声データ、タスクを実行する初心者の第2の動画データ及びタスクの実行をナレーションする初心者の第2の音声データを取得することによって、SMEである第1のユーザ及び初心者である第2のユーザからタスクを実行するための知識を獲得してもよい。演算処理エンジン130は、SMEによるタスクの実行と初心者によるタスクの実行との間の不一致又は差異を識別してもよい。さらに、演算処理エンジン130は、SMEによって実施される行動と初心者によって実施される行動との間の不一致又は差異の説明のためにSMEに問い合わせを生成するほか、SMEから、SME又は初心者ユーザが犯した誤りの注釈を受信してもよい。いくつかの例では、演算処理エンジン130は、第1のSME対第2のSME対初心者ユーザのマップの差異を示す出力を生成してもよい。例えば、演算処理エンジン130は、第1のユーザと第2のユーザとの間の差異を示す1つ又は複数のマップを生成して、第1のユーザと第2のユーザのそれぞれによるタスクの実行の間の1つ又は複数の差異を視覚化してもよい。そのようなマップは、例えば、各ユーザによって加えられた圧力、各ユーザの手の動き、各ユーザの身体の動きなどを含んでもよい。そのようなマップは、SMEによるタスクの実行と初心者ユーザによるタスクの実行との間の差異を視覚化することを可能にし、初心者ユーザがタスクの実行を学習するのを支援するのに有益であってもよい。
システム100は、上記で考察した曖昧さを説明するための問い合わせに応答して、例えば、第1のユーザ102から応答を受信してもよい。さらに、システム100は、タスクの実行を考察するタスクの実行後の面談中に、SMEから音声/動画情報を受信してもよい。機械学習システム112は、受信した説明及び/又は面談後に基づいて、タスクのためのドメインモデル114を更新する(318)。訓練ユニット210は、データモデル114の意味情報を訓練情報117の形態で知識データベース116に保存する(316)。
いくつかの例では、訓練情報117が知識データベース116に保存された後、システム100は、図3の上記の操作を繰り返して、能動的知識獲得及び受動的知識獲得を繰り返し実施してもよい。このようにして、システム100は、既存の知識獲得情報を使用して、機械学習システム112の性能を改善し、知識データベース116の訓練情報117の精度及び詳細を向上させてもよい。
図4は、本開示の技術に従って訓練情報を生成するための例示的なシステム400を示す図である。いくつかの例では、図4は、図3の複数のモダリティからの情報の融合414を描写する(312)。
図4に描写するように、動画装置106は、第1のユーザ102の広角の一人称視点を獲得するカメラ402と、ある位置から第1のユーザ102の左側への第1のユーザ102の三人称視点を獲得するカメラ404Aと、ある位置から第1のユーザ102の右側への第1のユーザ102の第三者視点を獲得するカメラ404Bとを備える。
動画認識ユニット214は、カメラ402、404A及び404Bから取得した動画データを受信し、物体認識を実施して、動画データに描写された1つ又は複数の物体を識別する。例えば、動画認識ユニット214は、カメラ402によって撮像された取扱説明書408と、カメラ404Bによって撮像された作業領域機械空間410とを識別する。さらに、動画認識ユニット214は、カメラ404A及び404Bからの動画データを、第1のユーザ102の人間姿勢データ412を用いてラベル付けする。
機械学習システム112は、複数のモダリティからの情報を融合して、図1のドメインモデル114を更新する。例えば、図4に示すように、機械学習システム112は、カメラ402、404A及び404Bから取得した動画データを、例えば、音声データ109、センサデータ121及び図1のドメイン文書104から取得したテキストデータを用いて処理して、ドメインモデル114を更新する。例えば、機械学習システム112は、動画データに描写された物体を識別し、音声データ109から物体への参照を識別し、動画データに描写された物体を音声データ109内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させる。次に、機械学習システム112は、例えば、オントロジー、実体、行動、事象、あるいはタスクの実行を規定するドメインモデル114の規則を規定するための相関を使用することによって、動画データから識別された物体と音声データ109から識別された物体への参照との相関に基づいてドメインモデル114を規定してもよい。
例示的な例として、動画認識ユニット214は、カメラ402、404A及び404Bから取得された動画データから、人間姿勢データを検出(例えば、骨格検出及び/又は関節検出)し、物体検出を実施することによって物体を認識する。動画認識ユニット214は、行動シーケンス認識を実施して、認識された人間の姿勢のシーケンスに基づいて行動を検出する。いくつかの例では、動画認識ユニット214は、類似の行動間の非常に短い時間間隔を無視することによって、互いに時間的に近い類似の行動を分類する。いくつかの例では、動画認識ユニット214は、認識された行動のリストを生成し、その動画認識ユニット214が行動を正しく識別したという信頼性を生成する。いくつかの例では、音声認識ユニット212は、例えば、第1のユーザ102又はドメイン文書104からの説話情報を用いて、知識データベースの個体群の中で同等の名前に関して確認することによって、検出された物体又はツールを正規化してもよい。例えば、取扱説明書では部品を「ローラアッパー」と呼ぶのに対し、SMEが同じ部品を「アッパーローラ」と呼ぶ場合があり、あるいは2つの異なる文書では同じツールを「ダイヤルゲージ」又は「ダイヤルインジケータ」と呼ぶ場合がある。機械学習システム112は、ドメインモデル114のオントロジー知識を活用することによって、動画認識ユニット214によって取得された動画抽出結果の精度を高めて、その結果、不正確な仮説又は一貫性のない仮説を取り除いてもよい。例えば、機械学習システムは、行動、物体及びツール/機器を含む認識された行動シーケンスが一貫しているか、ドメインモデル114によって許可されているかどうかを判定してもよい。動画認識ユニット214によって、例えば、「ハンマーによる洗浄」として認識される行動は、不可能なものであり、機械学習システム112によって破棄されるであろう。さらに、機械学習システム112は、動画データ107からの長めの時間間隔の類似の行動を融合してもよい。
引き続き前述の例では、機械学習システム112は、音声データ109から取得された物体への1つ又は複数の参照が、動画データ107にて認識された物体に対応するかどうかを判定する。例えば、音声データ109の一部が行動、物体、ツール及び場所を記述し、音声データ109のその部分が動画データ107の一部の近傍にあり、動画データ107のその部分から抽出された意味情報が音声データ109の上記部分と一致する(例えば、行動、物体及びツールは、動画データ107の上記部分にて認識される)場合、機械学習システム112は、音声データ109の上記部分と動画データ107の上記部分との間の相関を形成する。
別の例として、音声データ109の一部が行動、物体、ツール及び場所を記述し、動画データ107の一部から抽出された意味情報が音声データ109のその部分と一致しない(例えば、行動、物体及びツールは、動画データ107のその部分にて認識されない)場合、機械学習システム112は、物体認識の信頼性に従って、動画データ107にて認識された物体を順番に検査する。音声データ109に記述された物体が、所定の閾値を超える確実性のレベルで動画データ107に現れる場合、機械学習システム112は、音声データ109の上記部分と動画データ107の上記部分との間の相関関係を形成する。
別の例として、音声データ109の一部が行動、物体、ツール及び場所を記述し、動画データ107から抽出された意味情報が音声データ109のその部分と一致しない(例えば、行動、物体及びツールが動画データ107のその部分では認識されない)が、動画データ107に現れる物体が高いレベルの確実性にて認識される場合、機械学習システム112は、物体が動画データ107にて正しく認識されたと判定し、機械学習システムは、ドメインモデル114を構築する際に動画データ107を使用する。
別の例として、音声データ109の一部が行動、物体、ツール及び場所を記述し、動画データ107から抽出された意味情報が音声データ109のその部分と一致しない(例えば、行動、物体及びツールが動画データ107のその部分では認識されない)が、動画データ107に現れる物体が低いレベルの確実性にて認識される場合、機械学習システム112は、物体が動画データ107にて正しく認識されない可能性があると判定し、演算処理エンジン130は、曖昧さを解決するために、第1のユーザ102(例えば、SME)への問い合わせを生成する。
別の例として、音声データ109の一部が行動、物体、ツール及び場所を記述しているが、音声データ109のその部分に対応する動画データ107の部分がない場合、機械学習システム112は、音声データ109の上記部分を、暗黙知を含むものとして取り扱う。次に、機械学習システム112は、ドメインモデル114を構築する際に音声データ109のこの部分を使用してもよい。
図5は、本開示の技術に従って訓練情報を生成するための例示的なシステム500を示す図である。いくつかの例では、システム500は、図1の知識データベース116の作成の例を示す。便宜上、図5は、図1及び図2に関して描写されている。
図5の例に描写するように、機械学習システム112は、複数のモダリティからの情報を融合して、ドメインモデル114を更新する。ドメインモデルから訓練情報117を取得して、知識データベース116内に保存してもよい。例えば、複数のモダリティは動画データ107を含んでもよい。この動画データからは、機械学習システム112が、タスクの実行に関連する活動、活動シーケンス、ツールなどの知識を獲得する。別の例として、複数のモダリティは、取扱説明書、ツールのリストなどを含むドメイン文書104を含んでもよい。ドメイン文書からは、機械学習システム112が、タスクに関連する一連の活動、予想される期間、労働者の専門知識などの知識を獲得する。別の例として、複数のモダリティは、(例えば、第1のユーザ102などのSMEによるナレーションを介して提供された)音声データを含んでもよい。音声データからは、機械学習システム112が活動のおよその時系列又は順次のタイミング、活動の順序、測定、ツール、手順などの知識を獲得する。さらに別の例として、複数のモダリティは、(例えば、1つ又は複数の加速度計、圧力センサ、力センサ及び/又は運動センサによって提供される)センサデータ121を含んでもよい。このセンサデータからは、機械学習システム112が第1のユーザ102による手の動きなどの微小移動、第1のユーザ102の行動、ツール又はワークピースなどの1つ又は複数の物体に加えられる物理的力(例えば、回転力又は並進力)、あるいはワークピースの質感又は粗さなどの1つ又は複数の物体の表面特徴の知識を獲得する。機械学習システム112は、動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータを処理して、ドメインモデル114を更新する。訓練ユニット210は、ドメインモデル114を適用して、タスクの訓練情報117を生成する。訓練ユニット210は、知識データベース116の形態で保存する。このデータベースは、タスクの実行に関する訓練情報又はタスクを達成するための複数のステップのうちの1つ又は複数のステップの実施について訓練生によって問い合わせ可能である融合された知識データベースであってもよい。
図6は、本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データ600の図である。いくつかの例では、図2の動画認識ユニット214は、1つ又は複数の動画装置106を介して取得された動画データ107を処理して、ラベル付き動画データ600を生成する。図6に描写するように、ラベル付き動画データ600は、例えば、図1の第1のユーザ118の骨格姿勢データ、関節認識、手ぶり認識などをはじめとする人間姿勢データ602によってラベル付けされた単一の動画フレームを含む。
図7は、本開示の技術に従って訓練情報を生成する際に使用するラベル付き動画データ700の図である。いくつかの例では、図2の動画認識ユニット214は、1つ又は複数の動画装置106を介して取得された動画データ107を処理して、ラベル付き動画データ700を生成する。図7に描写するように、ラベル付き動画データ700は、例えば、図1の第1のユーザ118の骨格姿勢データ、関節認識、手ぶり認識などをはじめとする人間姿勢データ702によってラベル付けされた単一の動画フレームを含む。
図8は、本開示の技術に従って生成された訓練情報117を描写する例示的なユーザインターフェース800の図である。訓練情報117は、例えば、図2の訓練ユニット210によって生成された訓練情報117である。図8の例に示すように、ユーザインターフェース800は、動画データ107、音声データ109、センサデータ121及びドメイン文書104の一部などの複数のモダリティのデータの形態で訓練情報117を提示する。ここで、各タイプのデータは、タスクの実行での同じ物体、概念又はステップの存在に基づいて相互に関連付けられる。
例示的な例として、ユーザインターフェース800は、ディスプレイ802、804、806、808、810、812及び814を備える。ディスプレイ802は、動画データ107の時系列グラフを描写する。ディスプレイ804は、動画データ107のそれぞれの部分に相関する音声データ107の一部(例えば、第1のユーザ102による説話)の転写を描写する。ディスプレイ806は、認識された行動シーケンス(例えば、タスクを実行するための複数のステップのうちの1つのステップ)に対応するものとして動画データ107の一部を識別する。ディスプレイ808は、ディスプレイ806によって識別される動画データ107のその部分について認識された行動シーケンスのラベルを描写する。ディスプレイ810は、認識された物体を描写するものとして動画データ107の一部を識別する。ディスプレイ812は、動画データ107に描写された作業空間内の認識された物体の場所を識別する。ディスプレイ814は、認識されたツールを描写するものとして動画データ107の一部を識別する。
ディスプレイ802、804、806、808、810、812及び814のそれぞれは、ドメイン文書104、動画データ107、音声データ109及び/又はセンサデータ121によって通知される。いくつかの例では、図1のシステム100は、演算処理エンジン130が動画データ107、音声データ109及び/又はセンサデータ121の一部を、時系列の時間の対応に基づいて相互に相関させ得るように、動画データ107、音声データ109及び/又はセンサデータ121を同時に取得する。いくつかの例では、図1のシステム100は、動画データ107、音声データ109及び/又はセンサデータ121を非同期的に取得するか、異なる時間に取得し、その結果、演算処理エンジン130は、例えば、動画データ107にて認識された物体の認識、音声データ109にて認識されたそのような物体への参照及び/又はセンサデータ121から取得された測定値に基づいて、動画データ107、音声データ109及び/又はセンサデータ121の一部を互いに相関させてもよい。
いくつかの例では、ユーザインターフェース800は、タスクを実行する第1のSME対同じタスクを実行する第2のSME対同じタスクを実行する初心者ユーザのマップでの差異の表現を出力してもよい。例えば、表現には、各ユーザが実施する挙動の変化又は行動の差異を示す1つ又は複数の強調表示された部分が含まれてもよい。さらに、ユーザインターフェース800は、ユーザが拡大撮影して、異なるユーザの挙動又は行動の間の差異を表す特定の関心領域を表示することを可能にしてもよい。
図9は、本開示の技術に従って訓練情報を生成するための例示的な操作を示すフローチャートである。便宜上、図9は、図1及び図2に関して説明されている。
図9の例に描写するように、動画装置106は、タスクを実施する第1のユーザ102の動画データ107を取得する(902)。動画データ107は、複数のカメラソースを含んでもよい。例えば、動画装置106は、第1の動画装置及び第2の動画装置を含む。第1の動画装置は、第1のユーザ102の一人称視点の観点から、タスクを実行する第1のユーザ102の動画データを取得するように構成される。第2の動画装置は、第1のユーザ102の三人称視点の観点から、タスクを実行する第1のユーザ102の動画データを取得するように構成される。動画認識ユニット214は、図1の動画装置106から動画データ107を受信し、物体認識を実施して、動画データ107に描写された1つ又は複数の物体を識別する。いくつかの例では、動画認識ユニット214は、第1のユーザ102、第1のユーザ102によって使用される1つ又は複数のツール、第1のユーザ102が相互作用する1つ又は複数のワークピースなどを識別する。いくつかの例では、動画認識ユニット214は、動画データ107を処理して、人間の姿勢、物体又は活動シーケンスの注釈によってラベル付けされた動画データを生成する。
音声装置108は、タスクを実行する第1のユーザ102の音声データ109を取得する(904)。いくつかの例では、音声データ109は、タスクを実行している間の第1のユーザの行動を記述する第1のユーザ102による説話を含む。他の例では、音声データ109は、例えば、タスクを実行する前又は後の第1のユーザ102の面談中など、第1のユーザがタスクを実行していない間に、タスクを実行する方法を記述する第1のユーザ102による説話を含む。音声認識ユニット212は、図1の音声装置108から音声データ109を受信し、発話認識を実施して、音声データ109内に存在する1つ又は複数の物体又は概念への参照を識別する。
センサ装置120は、タスクを実行する第1のユーザ102のセンサデータ121を取得する(906)。センサ120は、例えば、1つ又は複数の運動センサ、圧力センサ、力センサ又は加速度センサを含んでもよい。いくつかの例では、センサ120は、第1のユーザ102が着用するか、第1のユーザ102が着用する物品、例えば、ユーザの指、手及び/又は腕の運動及び/又は力を検出する運動追跡手袋に組み込まれる。いくつかの例では、センサ120は、第1のユーザ102が使用する1つ又は複数のツール、例えば、ユーザが使用中のツールの運動及び力を検出するための1つ又は複数の圧力センサを組み込む高性能ツールに組み込まれる。いくつかの例では、センサ102は、第1のユーザ102、第1のユーザ102の作業空間、あるいはユーザが表面に加えた力を検出する力パッド、例えば、作業面、ワークピース、ツール又は第1のユーザ102の加速度を検出するIMUなどの第1のユーザ102が相互作用する物体に関連するデータを感知する外部センサである。
テキスト認識ユニット202は、タスクの実行に関連するドメイン文書104の形態でテキストデータを受信する(908)。ドメイン文書104の例には、タスクを実行するための取扱説明書、タスクを実行するために必要な部品の部品リスト、タスクを実行するために必要なツールのツールリスト又は他の書面によるガイドが含まれる。テキスト認識ユニット202は、テキスト認識を実施して、機械学習システム112による使用に適したテキストデータを取得する。
機械学習システム112は、動画データ107を音声データ109と、センサデータ121と、ドメイン文書104から取得されたテキストデータとに相関させる(910)。いくつかの例では、機械学習システム112は、動画データ107の少なくとも一部を、音声データ109の少なくとも一部と、センサデータ121の少なくとも一部と、ドメイン文書104から取得されたテキストデータの少なくとも一部とに相関させる。動画データ107と音声データ109、センサデータ121及びテキストデータとの相関に基づいて、機械学習システム112は、タスクを実行するための複数のステップのうちの1つのステップを描写する動画データの少なくとも一部、タスクを実行するための複数のステップのうちの同じステップを記述する音声データの少なくとも一部、タスクを実行するための複数のステップのうちの同じステップを記述するセンサデータの少なくとも一部及びタスクを実行するための複数のステップのうちの同じステップを記述するテキストデータの少なくとも一部を識別してもよい。例えば、機械学習システム112は、動画データ107から第1の意味情報を抽出し、音声データ109から第2の意味情報を抽出し、センサデータ121から第3の意味情報を抽出し、ドメイン文書104から取得されたテキストデータから第4の意味情報を抽出する。機械学習システム112は、第1の意味情報を第2、第3及び第4の意味情報に相関させて、タスクを実行する際の同じステップを描写する動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータそれぞれの一部を識別する。
機械学習システム112は、相関する動画データ107、音声データ109、センサデータ121及びドメイン文書104から取得されたテキストデータを処理して、ドメインモデル114を更新して、タスクの実行をいっそう正確に記述するか、いっそう包括的に記述する(912)。ドメインモデル114は、第1のユーザ102が実行されるタスクのモデルを提供する。いくつかの例では、ドメインモデル114は、特定の目標を達成するために実施される複数のステップとしてタスクをモデル化する。いくつかの例では、ドメインモデル114は、タスクの実行に関連するオントロジー、クラスター、実体、行動、事象又は規則(例えば、意味規則)のうちの少なくとも1つを規定することによってタスクをモデル化する。例えば、機械学習システム112は、動画データ107に描写された物体を識別し、音声データ109から物体への参照を識別し、動画データ107に描写された物体を音声データ109内の物体への参照に相関させることによって、動画データの一部を音声データの一部に相関させてもよい。次に、機械学習システム112は、例えば、オントロジー、実体、行動、事象又はタスクの実行を規定するドメインモデル114の規則を規定するための相関を使用することによって、動画データ107から識別された物体と音声データ109から識別された物体への参照との相関に基づいて、ドメインモデル114を更新してもよい。
訓練ユニット210は、ドメインモデル114を適用して、タスクのための訓練情報117を生成する(914)。訓練情報117は、例えば、タスク、タスクを構成する複数のステップのうちの1つ又は複数のステップ、あるいは他の各タイプのデータに相互参照された各タイプのデータに関連する物体(例えば、ツール又はワークピース)に関連する、例えば、動画データ、音声データ、センサデータ及び/又はテキストデータを含む。
訓練ユニット210は、タスクを実行するために第2のユーザ118を訓練する際に使用する訓練情報117を出力する(916)。例えば、訓練情報117は、第2のユーザ118が相互作用し得るテキスト情報、音声情報及び/又は動画情報の形態の双方向マルチメディアマニュアルの形態をとってもよい。別の例として、訓練情報117は、拡張現実コンテンツの形態をとってもよい。例えば、訓練ユニット210は、そのような拡張現実コンテンツを、例えば、第2のユーザ118が着用するHMDに出力して、SMEによるタスクの実行の経験的な一人称視点を提供してもよい。いくつかの例では、拡張現実コンテンツは、第1のユーザ102によるナレーションなどの音声データ109の関連部分と、タスクを実行するときの第1のユーザ102の視点などの動画データ107の関連部分とを含んでもよい。
本開示に記載した技術は、少なくとも部分的に、ハードウェア、ソフトウェア、ファームウェア又はその任意の組み合わせで実装されてもよい。例えば、記載した技術のさまざまな態様を、1つ又は複数のマイクロプロセッサ、デジタル信号プロセッサ(DSP)、特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)、あるいは他の任意の同等の集積論理回路又は個別論理回路のほか、そのような構成要素の任意の組み合わせをはじめとする1つ又は複数のプロセッサ内に実装してもよい。「プロセッサ」又は「処理回路」という用語は概ね、前述の論理回路のいずれかを、単独で指すことも、他の論理回路と組み合わせて指すことも、あるいは任意の他の同等の回路を指すこともある。ハードウェアを含む制御ユニットがこのほか、本開示の技術のうちの1つ又は複数を実施してもよい。
そのようなハードウェア、ソフトウェア及びファームウェアは、本開示に記載したさまざまな操作及び機能を支持するために、同じ装置内又は別個の装置内に実装されてもよい。さらに、記載したユニット、モジュール又は構成要素のいずれかを、個別であるが相互運用可能な論理装置として共に実装しても、別々に実装してもよい。モジュール又はユニットとしてのさまざまな機能の描写は、さまざまな機能的側面を強調することを目的としており、必ずしもそのようなモジュール又はユニットが別個のハードウェア又はソフトウェア構成要素によって実現されなければならないことを意味するわけではない。むしろ、1つ又は複数のモジュール又はユニットに連動する機能が、別個のハードウェア又はソフトウェア構成要素によって実施されても、共通又は別個のハードウェア又はソフトウェア構成要素内に統合されてもよい。
本開示に記載の技術はこのほか、命令を含むコンピュータ可読記憶媒体などのコンピュータ可読媒体に具体化されても、符号化されてもよい。コンピュータ可読記憶媒体に埋め込まれるか符号化された命令が、例えば、命令が実行されたときに、プログラム可能なプロセッサ又は他のプロセッサにその方法を実施させてもよい。コンピュータ可読記憶媒体には、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能なプログラム可能読み取り専用メモリ(EPROM)、電子的に消去可能なプログラム可能読み取り専用メモリ(EEPROM)、フラッシュメモリ、ハードディスク、CD-ROM、フロッピー(登録商標)ディスク、カセット、磁気媒体、光学媒体又はその他のコンピュータで読み取り可能な媒体が含まれてもよい。
本開示に記載の技術はこのほか、命令を含むコンピュータ可読記憶媒体などのコンピュータ可読媒体に具体化されても、符号化されてもよい。コンピュータ可読記憶媒体に埋め込まれるか符号化された命令が、例えば、命令が実行されたときに、プログラム可能なプロセッサ又は他のプロセッサにその方法を実施させてもよい。コンピュータ可読記憶媒体には、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、プログラム可能読み取り専用メモリ(PROM)、消去可能なプログラム可能読み取り専用メモリ(EPROM)、電子的に消去可能なプログラム可能読み取り専用メモリ(EEPROM)、フラッシュメモリ、ハードディスク、CD-ROM、フロッピー(登録商標)ディスク、カセット、磁気媒体、光学媒体又はその他のコンピュータで読み取り可能な媒体が含まれてもよい。
上述の実施形態は下記のように記載され得るが、下記に限定されるものではない。
[構成1]
タスクを実行するための知識を獲得するためのシステムであって、前記システムは、
前記タスクの実行を規定するドメインモデルと、
前記タスクを実行する第1のユーザの動画データを取得するように構成された動画入力装置と、
前記タスクの実行を記述する音声データを取得するように構成された音声入力装置と、
前記タスクの実行中にセンサデータを生成するように構成された1つ又は複数のセンサと、
演算処理エンジンであって、
前記動画データの少なくとも一部を、前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された、演算処理エンジンと、
更新された前記ドメインモデルを適用して前記タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、
前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力するように構成された出力装置と、を具備する、システム。
[構成2]
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、機械学習システムであって、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの1つのステップを描写する前記動画データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部とを識別するように構成された、機械学習システムを具備する、構成1に記載のシステム。
[構成3]
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に関連する第1の意味情報を抽出し、
前記音声データの前記少なくとも一部から、前記タスクの実行に関連する第2の意味情報を抽出し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に関連する第3の意味情報を抽出し、
前記第1の意味情報、前記第2の意味情報及び前記第3の意味情報から、前記タスクを実行するための前記複数のステップのうちの前記1つのステップを描写する前記動画データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを記述する前記音声データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを描写する前記センサデータの前記少なくとも一部と、を識別するように構成される、構成2に記載のシステム。
[構成4]
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された前記機械学習システムは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された第1の機械学習システムを具備し、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された第2の機械学習システムを具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記第1の機械学習システムは、
前記動画データの前記少なくとも一部から、前記タスクの実行に使用される1つ又は複数の物体を識別し、
前記音声データの前記少なくとも一部から、前記タスクの実行に使用される前記1つ又は複数の物体への参照を識別し、
前記センサデータの前記少なくとも一部から、前記タスクの実行に使用される前記1つ又は複数の物体の1つ又は複数の物理的測定値を識別し、
前記動画データから識別された前記1つ又は複数の物体を、前記音声データから識別された前記1つ又は複数の物体への前記参照と、前記センサデータから識別された前記1つ又は複数の物体の前記1つ又は複数の物理的測定値とに相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記第2の機械学習システムは、前記動画データから識別された前記1つ又は複数の物体と、前記音声データから識別された前記1つ又は複数の物体への前記参照及び前記センサデータから識別された前記1つ又は複数の物体の前記1つ又は複数の物理的測定値との相関に基づいて、オントロジー、実体、行動、事象又は前記ドメインモデルの前記タスクの実行を規定する規則のうちの少なくとも1つを規定するようにさらに構成される、構成2に記載のシステム。
[構成5]
前記タスクを実行する前記第1のユーザの前記動画データは、前記タスクを実行する前記第1のユーザの第1の動画データを含み、
前記タスクの実行を記述する前記音声データは、前記タスクの実行をナレーションする前記第1のユーザの第1の音声データを含み、
前記タスクの実行中に生成された前記センサデータは、前記第1のユーザによる前記タスクの実行中に生成された第1のセンサデータを含み、
前記動画入力装置は、前記タスクを実行する前記第2のユーザ又は第3のユーザのうちの少なくとも1つの第2の動画データを受信するようにさらに構成され、
前記音声入力装置は、前記タスクの実行をナレーションする前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つの第2の音声データを受信するようにさらに構成され、
前記1つ又は複数のセンサは、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの実行中に第2のセンサデータを生成するようにさらに構成され、
前記演算処理エンジンは、
前記第1の動画データの少なくとも一部を、前記第1の音声データの少なくとも一部と前記第1のセンサデータの少なくとも一部とに相関させ、
前記第2の動画データの少なくとも一部を、前記第2の音声データの少なくとも一部と前記第2のセンサデータの少なくとも一部とに相関させ、
相関する前記第1の動画データの前記少なくとも一部、前記第1の音声データの前記少なくとも一部及び前記第1のセンサデータの前記少なくとも一部と、相関する前記第2の動画データの前記少なくとも一部、前記第2の音声データの前記少なくとも一部及び前記第2のセンサデータの前記少なくとも一部とを処理して、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の意味論的差異を識別するように構成される、構成1に記載のシステム。
[構成6]
前記第2のユーザ及び前記第3のユーザのうちの前記少なくとも1つは、前記第3のユーザを含み、
前記出力装置は、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の識別された意味論的差異の説明について、前記第1のユーザと、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つとのうちの少なくとも1つに問い合わせるように構成され、
前記演算処理エンジンは、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するようにさらに構成される、構成5に記載のシステム。
[構成7]
前記第2のユーザ及び前記第3のユーザのうちの前記少なくとも1つは、前記第2のユーザを含み、
前記タスクを実行するための前記訓練情報を生成するために、前記訓練ユニットは、前記第1のユーザによる前記タスクの前記実行と前記第2のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する、前記第2のユーザへのフィードバックを生成するように構成され、
前記タスクを実行するために前記第2のユーザを訓練する際に使用する前記訓練情報を出力するために、前記出力装置は、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する前記フィードバックを前記第2のユーザに出力するように構成される、構成5に記載のシステム。
[構成8]
前記動画データは、前記第1のユーザの人間姿勢データ又は物体検出データのうちの少なくとも1つを用いて注釈が付けられた動画データを含む、構成1に記載のシステム。
[構成9]
前記システムは、前記タスクの実行を記述するテキストデータを受信するように構成された文書処理ユニットをさらに具備し、
前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの少なくとも一部に相関させるように構成され、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新する、構成1に記載のシステム。
[構成10]
前記タスクの実行を記述する前記テキストデータは、タスクを実行するための1つ又は複数の取扱説明書又は前記タスクの実行中に使用されるツールのリストを含む、構成9に記載のシステム。
[構成11]
前記1つ又は複数のセンサは、前記第1のユーザ、前記第1のユーザの作業空間、前記タスクの実行中に前記第1のユーザによって使用される1つ又は複数のツール、あるいは前記タスクの実行の際に使用される1つ又は複数の物体のうちの1つ又は複数からの入力に基づいて、前記センサデータを生成するように構成される、構成1に記載のシステム。
[構成12]
前記センサデータは、
前記第1のユーザの微小移動又は行動のうちの少なくとも1つに関連するデータ、
前記タスクの実行中に前記第1のユーザが相互作用する1つ又は複数の物体に関連するデータ、
前記第1のユーザの1つ又は複数の指又は手の動き、前記第1のユーザの手首の回転、あるいは1つ又は複数の物体に付与される前記第1のユーザの手の圧力又は指の圧力に関連するデータ、あるいは
1つ又は複数のツールと前記1つ又は複数の物体との間の角度、前記1つ又は複数の物体にかかる圧力、前記1つ又は複数の物体の表面の特徴又は前記1つ又は複数の物体の加速度のうちの1つ又は複数に関連するデータ、のうちの1つ又は複数のセンサデータを含む、構成1に記載のシステム。
[構成13]
前記動画入力装置は、
前記第1のユーザの一人称視点の観点から、前記タスクを実行する前記第1のユーザの第1の動画データを取得するように構成された第1の動画入力装置と、
前記第1のユーザの三人称視点の観点から、前記タスクを実行する前記第1のユーザの第2の動画データを取得するように構成された第2の動画入力装置と、を具備し、
前記タスクを実行する前記第1のユーザの前記動画データは、前記第1の動画データ及び前記第2の動画データを含む、構成1に記載のシステム。
[構成14]
前記タスクを実行するための訓練情報を生成するために、前記訓練ユニットは、
前記タスクを実行するために前記第2のユーザを訓練するための拡張現実コンテンツ、あるいは
前記タスクを実行するために前記第2のユーザを訓練するための双方向技術マニュアル、のうちの少なくとも1つを生成するように構成される、構成1に記載のシステム。
[構成15]
前記訓練ユニットは、前記第2のユーザから、前記タスクを実行するための命令に対する問い合わせを受信するようにさらに構成され、
前記訓練ユニットは、更新された前記ドメインモデルを適用して、前記タスクを実行するための命令に対する前記問い合わせを受信することに応答して、前記タスクを実行するための前記訓練情報を生成するようにさらに構成される、構成1に記載のシステム。
[構成16]
前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の意味論的差異を識別するように構成され、
前記出力装置は、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明について前記第1のユーザに問い合わせるように構成され、
前記演算処理エンジンは、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するように構成される、構成1に記載のシステム。
[構成17]
前記タスクの実行を記述する前記音声データは、前記第1のユーザとの面談の音声データを含み、
前記タスクの実行中の意思決定のモデルと、
機械的、技術的又は職人的なドメインのうちの少なくとも1つでの1つ又は複数の手続き型スキルと、を特定する、構成1に記載のシステム。
[構成18]
タスクを実行するための知識を獲得するための方法であって、前記方法は、
動画入力装置によって、前記タスクを実行する第1のユーザの動画データを取得するステップと、
音声入力装置によって、前記タスクの実行を記述する音声データを取得するステップと、
1つ又は複数のセンサによって、前記タスクの実行中にセンサデータを生成するステップと、
演算処理エンジンによって、前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させるステップと、
前記演算処理エンジンによって、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新するステップと、
訓練ユニットによって、更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成するステップと、
出力装置によって、前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力するステップと、を含む方法。
[構成19]
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるステップは、
前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの1つのステップを描写する前記動画データの少なくとも一部、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部及び前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部を識別するステップ、を含む、構成18に記載の方法。
[構成20]
命令を含む非一時的なコンピュータ可読媒体であって、前記命令は、実行されると、処理回路に、
前記タスクを実行する第1のユーザの動画データを取得させ、
前記タスクの実行を記述する音声データを取得させ、
前記タスクの実行中にセンサデータを生成させ、
前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新させ、
更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成させ、
前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力させる、ように構成される、非一時的なコンピュータ可読媒体。

Claims (20)

  1. タスクを実行するための知識を獲得するためのシステムであって、前記システムは、
    前記タスクの実行を規定するドメインモデルと、
    前記タスクを実行する第1のユーザの動画データを取得するように構成された動画入力装置と、
    前記タスクの実行を記述する音声データを取得するように構成された音声入力装置と、
    前記タスクの実行中にセンサデータを生成するように構成された1つ又は複数のセンサと、
    演算処理エンジンであって、
    前記動画データの少なくとも一部を、前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
    相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された、演算処理エンジンと、
    更新された前記ドメインモデルを適用して前記タスクを実行するための訓練情報を生成するように構成された訓練ユニットと、
    前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力するように構成された出力装置と、を具備する、システム。
  2. 前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、機械学習システムであって、
    前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの1つのステップを描写する前記動画データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部とを識別するように構成された、機械学習システムを具備する、請求項1に記載のシステム。
  3. 前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記機械学習システムは、
    前記動画データの前記少なくとも一部から、前記タスクの実行に関連する第1の意味情報を抽出し、
    前記音声データの前記少なくとも一部から、前記タスクの実行に関連する第2の意味情報を抽出し、
    前記センサデータの前記少なくとも一部から、前記タスクの実行に関連する第3の意味情報を抽出し、
    前記第1の意味情報、前記第2の意味情報及び前記第3の意味情報から、前記タスクを実行するための前記複数のステップのうちの前記1つのステップを描写する前記動画データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを記述する前記音声データの前記少なくとも一部と、前記タスクを実行するための前記複数のステップのうちの前記同じステップを描写する前記センサデータの前記少なくとも一部と、を識別するように構成される、請求項2に記載のシステム。
  4. 前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された前記機械学習システムは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるように構成された第1の機械学習システムを具備し、
    相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するように構成された第2の機械学習システムを具備し、
    前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記第1の機械学習システムは、
    前記動画データの前記少なくとも一部から、前記タスクの実行に使用される1つ又は複数の物体を識別し、
    前記音声データの前記少なくとも一部から、前記タスクの実行に使用される前記1つ又は複数の物体への参照を識別し、
    前記センサデータの前記少なくとも一部から、前記タスクの実行に使用される前記1つ又は複数の物体の1つ又は複数の物理的測定値を識別し、
    前記動画データから識別された前記1つ又は複数の物体を、前記音声データから識別された前記1つ又は複数の物体への前記参照と、前記センサデータから識別された前記1つ又は複数の物体の前記1つ又は複数の物理的測定値とに相関させるように構成され、
    相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記第2の機械学習システムは、前記動画データから識別された前記1つ又は複数の物体と、前記音声データから識別された前記1つ又は複数の物体への前記参照及び前記センサデータから識別された前記1つ又は複数の物体の前記1つ又は複数の物理的測定値との相関に基づいて、オントロジー、実体、行動、事象又は前記ドメインモデルの前記タスクの実行を規定する規則のうちの少なくとも1つを規定するようにさらに構成される、請求項2に記載のシステム。
  5. 前記タスクを実行する前記第1のユーザの前記動画データは、前記タスクを実行する前記第1のユーザの第1の動画データを含み、
    前記タスクの実行を記述する前記音声データは、前記タスクの実行をナレーションする前記第1のユーザの第1の音声データを含み、
    前記タスクの実行中に生成された前記センサデータは、前記第1のユーザによる前記タスクの実行中に生成された第1のセンサデータを含み、
    前記動画入力装置は、前記タスクを実行する前記第2のユーザ又は第3のユーザのうちの少なくとも1つの第2の動画データを受信するようにさらに構成され、
    前記音声入力装置は、前記タスクの実行をナレーションする前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つの第2の音声データを受信するようにさらに構成され、
    前記1つ又は複数のセンサは、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの実行中に第2のセンサデータを生成するようにさらに構成され、
    前記演算処理エンジンは、
    前記第1の動画データの少なくとも一部を、前記第1の音声データの少なくとも一部と前記第1のセンサデータの少なくとも一部とに相関させ、
    前記第2の動画データの少なくとも一部を、前記第2の音声データの少なくとも一部と前記第2のセンサデータの少なくとも一部とに相関させ、
    相関する前記第1の動画データの前記少なくとも一部、前記第1の音声データの前記少なくとも一部及び前記第1のセンサデータの前記少なくとも一部と、相関する前記第2の動画データの前記少なくとも一部、前記第2の音声データの前記少なくとも一部及び前記第2のセンサデータの前記少なくとも一部とを処理して、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の意味論的差異を識別するように構成される、請求項1に記載のシステム。
  6. 前記第2のユーザ及び前記第3のユーザのうちの前記少なくとも1つは、前記第3のユーザを含み、
    前記出力装置は、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の識別された意味論的差異の説明について、前記第1のユーザと、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つとのうちの少なくとも1つに問い合わせるように構成され、
    前記演算処理エンジンは、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザ又は前記第3のユーザのうちの前記少なくとも1つによる前記タスクの前記実行との間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するようにさらに構成される、請求項5に記載のシステム。
  7. 前記第2のユーザ及び前記第3のユーザのうちの前記少なくとも1つは、前記第2のユーザを含み、
    前記タスクを実行するための前記訓練情報を生成するために、前記訓練ユニットは、前記第1のユーザによる前記タスクの前記実行と前記第2のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する、前記第2のユーザへのフィードバックを生成するように構成され、
    前記タスクを実行するために前記第2のユーザを訓練する際に使用する前記訓練情報を出力するために、前記出力装置は、前記第1のユーザによる前記タスクの前記実行と、前記第2のユーザによる前記タスクの前記実行との間の前記識別された意味論的差異を記述する前記フィードバックを前記第2のユーザに出力するように構成される、請求項5に記載のシステム。
  8. 前記動画データは、前記第1のユーザの人間姿勢データ又は物体検出データのうちの少なくとも1つを用いて注釈が付けられた動画データを含む、請求項1に記載のシステム。
  9. 前記システムは、前記タスクの実行を記述するテキストデータを受信するように構成された文書処理ユニットをさらに具備し、
    前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるために、前記演算処理エンジンは、前記動画データの前記少なくとも一部を、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの少なくとも一部に相関させるように構成され、
    相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新するために、前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部、前記センサデータの前記少なくとも一部及び前記テキストデータの前記少なくとも一部を処理して、前記タスクの実行を規定する前記ドメインモデルを更新する、請求項1に記載のシステム。
  10. 前記タスクの実行を記述する前記テキストデータは、タスクを実行するための1つ又は複数の取扱説明書又は前記タスクの実行中に使用されるツールのリストを含む、請求項9に記載のシステム。
  11. 前記1つ又は複数のセンサは、前記第1のユーザ、前記第1のユーザの作業空間、前記タスクの実行中に前記第1のユーザによって使用される1つ又は複数のツール、あるいは前記タスクの実行の際に使用される1つ又は複数の物体のうちの1つ又は複数からの入力に基づいて、前記センサデータを生成するように構成される、請求項1に記載のシステム。
  12. 前記センサデータは、
    前記第1のユーザの微小移動又は行動のうちの少なくとも1つに関連するデータ、
    前記タスクの実行中に前記第1のユーザが相互作用する1つ又は複数の物体に関連するデータ、
    前記第1のユーザの1つ又は複数の指又は手の動き、前記第1のユーザの手首の回転、あるいは1つ又は複数の物体に付与される前記第1のユーザの手の圧力又は指の圧力に関連するデータ、あるいは
    1つ又は複数のツールと前記1つ又は複数の物体との間の角度、前記1つ又は複数の物体にかかる圧力、前記1つ又は複数の物体の表面の特徴又は前記1つ又は複数の物体の加速度のうちの1つ又は複数に関連するデータ、のうちの1つ又は複数のセンサデータを含む、請求項1に記載のシステム。
  13. 前記動画入力装置は、
    前記第1のユーザの一人称視点の観点から、前記タスクを実行する前記第1のユーザの第1の動画データを取得するように構成された第1の動画入力装置と、
    前記第1のユーザの三人称視点の観点から、前記タスクを実行する前記第1のユーザの第2の動画データを取得するように構成された第2の動画入力装置と、を具備し、
    前記タスクを実行する前記第1のユーザの前記動画データは、前記第1の動画データ及び前記第2の動画データを含む、請求項1に記載のシステム。
  14. 前記タスクを実行するための訓練情報を生成するために、前記訓練ユニットは、
    前記タスクを実行するために前記第2のユーザを訓練するための拡張現実コンテンツ、あるいは
    前記タスクを実行するために前記第2のユーザを訓練するための双方向技術マニュアル、のうちの少なくとも1つを生成するように構成される、請求項1に記載のシステム。
  15. 前記訓練ユニットは、前記第2のユーザから、前記タスクを実行するための命令に対する問い合わせを受信するようにさらに構成され、
    前記訓練ユニットは、更新された前記ドメインモデルを適用して、前記タスクを実行するための命令に対する前記問い合わせを受信することに応答して、前記タスクを実行するための前記訓練情報を生成するようにさらに構成される、請求項1に記載のシステム。
  16. 前記演算処理エンジンは、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の意味論的差異を識別するように構成され、
    前記出力装置は、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明について前記第1のユーザに問い合わせるように構成され、
    前記演算処理エンジンは、前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部又は前記センサデータの前記少なくとも一部の間の前記識別された意味論的差異の説明に基づいて、前記タスクの実行を規定する前記ドメインモデルを更新するように構成される、請求項1に記載のシステム。
  17. 前記タスクの実行を記述する前記音声データは、前記第1のユーザとの面談の音声データを含み、
    前記タスクの実行中の意思決定のモデルと、
    機械的、技術的又は職人的なドメインのうちの少なくとも1つでの1つ又は複数の手続き型スキルと、を特定する、請求項1に記載のシステム。
  18. タスクを実行するための知識を獲得するための方法であって、前記方法は、
    動画入力装置によって、前記タスクを実行する第1のユーザの動画データを取得するステップと、
    音声入力装置によって、前記タスクの実行を記述する音声データを取得するステップと、
    1つ又は複数のセンサによって、前記タスクの実行中にセンサデータを生成するステップと、
    演算処理エンジンによって、前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させるステップと、
    前記演算処理エンジンによって、相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新するステップと、
    訓練ユニットによって、更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成するステップと、
    出力装置によって、前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力するステップと、を含む方法。
  19. 前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させるステップは、
    前記動画データの前記少なくとも一部を前記音声データの前記少なくとも一部と前記センサデータの前記少なくとも一部とに相関させて、前記タスクを実行するための複数のステップのうちの1つのステップを描写する前記動画データの少なくとも一部、前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記音声データの少なくとも一部及び前記タスクを実行するための前記複数のステップのうちの同じステップを記述する前記センサデータの少なくとも一部を識別するステップ、を含む、請求項18に記載の方法。
  20. 命令を含む非一時的なコンピュータ可読媒体であって、前記命令は、実行されると、処理回路に、
    前記タスクを実行する第1のユーザの動画データを取得させ、
    前記タスクの実行を記述する音声データを取得させ、
    前記タスクの実行中にセンサデータを生成させ、
    前記動画データの少なくとも一部を前記音声データの少なくとも一部と前記センサデータの少なくとも一部とに相関させ、
    相関する前記動画データの前記少なくとも一部、前記音声データの前記少なくとも一部及び前記センサデータの前記少なくとも一部を処理して、前記タスクの実行を規定するドメインモデルを更新させ、
    更新された前記ドメインモデルを適用して、前記タスクを実行するための訓練情報を生成させ、
    前記タスクを実行するために第2のユーザを訓練する際に使用する前記訓練情報を出力させる、ように構成される、非一時的なコンピュータ可読媒体。
JP2023019137A 2019-12-23 2023-02-10 技術的知識獲得のための機械学習システム Pending JP2023076426A (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962952658P 2019-12-23 2019-12-23
US62/952,658 2019-12-23
JP2020213123A JP2021099810A (ja) 2019-12-23 2020-12-23 技術的知識獲得のための機械学習システム

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2020213123A Division JP2021099810A (ja) 2019-12-23 2020-12-23 技術的知識獲得のための機械学習システム

Publications (1)

Publication Number Publication Date
JP2023076426A true JP2023076426A (ja) 2023-06-01

Family

ID=76438292

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2020213123A Withdrawn JP2021099810A (ja) 2019-12-23 2020-12-23 技術的知識獲得のための機械学習システム
JP2023019137A Pending JP2023076426A (ja) 2019-12-23 2023-02-10 技術的知識獲得のための機械学習システム

Family Applications Before (1)

Application Number Title Priority Date Filing Date
JP2020213123A Withdrawn JP2021099810A (ja) 2019-12-23 2020-12-23 技術的知識獲得のための機械学習システム

Country Status (2)

Country Link
US (1) US20210192972A1 (ja)
JP (2) JP2021099810A (ja)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11941012B2 (en) 2019-01-17 2024-03-26 Sri International User action sequence recognition using action models
US20210232873A1 (en) * 2020-01-24 2021-07-29 Nvidia Corporation Instruction generation using one or more neural networks
US11615330B2 (en) * 2020-03-18 2023-03-28 Kyndryl, Inc. Virtual subject matter expert provisioning
US11676574B2 (en) * 2020-09-04 2023-06-13 International Business Machines Corporation Duration based task monitoring of artificial intelligence voice response systems
US11494996B2 (en) * 2020-11-30 2022-11-08 International Business Machines Corporation Dynamic interaction deployment within tangible mixed reality
US11651590B2 (en) * 2021-01-28 2023-05-16 Zebra Technologies Corporation Operation management system utilizing a wearable device

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5846086A (en) * 1994-07-01 1998-12-08 Massachusetts Institute Of Technology System for human trajectory learning in virtual environments
US9824601B2 (en) * 2012-06-12 2017-11-21 Dassault Systemes Symbiotic helper
US9280908B2 (en) * 2013-03-15 2016-03-08 International Business Machines Corporation Results of question and answer systems
US9786197B2 (en) * 2013-05-09 2017-10-10 Rockwell Automation Technologies, Inc. Using cloud-based data to facilitate enhancing performance in connection with an industrial automation system
US10360811B2 (en) * 2015-01-06 2019-07-23 Asensei, Inc. Movement based fitness and fitness product management
WO2018017973A1 (en) * 2016-07-22 2018-01-25 Sri International Computational analysis of observations for determination of feedback
JP6321879B1 (ja) * 2017-12-20 2018-05-09 グレイステクノロジー株式会社 作業支援システム及び作業支援プログラム
JP2021508870A (ja) * 2017-12-21 2021-03-11 サムスン エレクトロニクス カンパニー リミテッド 生体認証によるユーザー認証のためのシステム及び方法
JP2019200257A (ja) * 2018-05-15 2019-11-21 株式会社ミツトヨ 学習支援システム及びプログラム
US11282405B2 (en) * 2018-10-04 2022-03-22 Ttec Holdings, Inc. Intelligent systems based training of customer service agents

Also Published As

Publication number Publication date
JP2021099810A (ja) 2021-07-01
US20210192972A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
JP2023076426A (ja) 技術的知識獲得のための機械学習システム
Zhu et al. AR-mentor: Augmented reality based mentoring system
Sebe et al. Emotion recognition based on joint visual and audio cues
Bleser et al. Cognitive learning, monitoring and assistance of industrial workflows using egocentric sensor networks
Zhao A concise tutorial on human motion tracking and recognition with Microsoft Kinect
McDuff et al. A multimodal emotion sensing platform for building emotion-aware applications
Alshammari et al. Robotics utilization in automatic vision-based assessment systems from artificial intelligence perspective: A systematic review
Alon et al. Deep-hand: a deep inference vision approach of recognizing a hand sign language using american alphabet
Rozaliev et al. Methods and Models for Identifying Human Emotions by Recognition Gestures and Motion
Mehta et al. Human-centered intelligent training for emergency responders
Schött et al. A literature survey of how to convey transparency in co-located human–robot interaction
US20230343043A1 (en) Multimodal procedural guidance content creation and conversion methods and systems
Rozaliev et al. Detailed analysis of postures and gestures for the identification of human emotional reactions
Gomez‐Donoso et al. Automatic Schaeffer's gestures recognition system
Rozaliev et al. Recognizing and analyzing emotional expressions in movements
Abdulhamied et al. Real-time recognition of American sign language using long-short term memory neural network and hand detection
Pradeep et al. Advancement of sign language recognition through technology using python and OpenCV
VanderHoeven et al. Point target detection for multimodal communication
Cafaro et al. Nonverbal behavior in multimodal performances
Colby American sign language gesture recognition using motion tracking gloves in vr
Tang et al. Guest editorial: special issue on human pose estimation and its applications
Ye et al. An action analysis algorithm for teachers based on human pose estimation
Obeidy Real Time Malaysian Sign Language (MSL) Translator–Tuturjom
Dammak et al. Real-time learner expressive gestures analysis using in EMASPEL framework
Ajay et al. Analyses of Machine Learning Techniques for Sign Language to Text conversion for Speech Impaired

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20230407

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20230407

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20240319

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20240619