JP7520122B2

JP7520122B2 - 人間－ロボットチームによって実行されるタスクを用いた個別製造プロセスにおける高度な異常検出のためのシステムおよび方法

Info

Publication number: JP7520122B2
Application number: JP2022538571A
Authority: JP
Inventors: ラフトチーブ，エミル; ロメレス，ディエゴ
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-12-06
Filing date: 2020-12-01
Publication date: 2024-07-22
Anticipated expiration: 2040-12-01
Also published as: WO2021112255A2; WO2021112255A3; US11442429B2; JP2022545296A; US20210173377A1

Description

技術分野
本開示は、一般にモデル学習技術のシステムおよび方法に関し、より具体的にはプロセスの中のいくつかのステップが人間－ロボット協働オペレーションチームによって実行される個別製造プロセスのためのモデル学習技術のシステムおよび設計に関する。

背景技術
従来の機械学習技術は、ロボットおよびパーソナルアシスタントなどのインテリジェントシステムが、例または命令から学習によって知識を得て困難な問題を解決することを可能にすることができる。しかし、これらの従来の学習モデルでは、ロボットシステムを制御するにあたって多くの難題がある。これは、ロボットシステムの動きを支配する非常に複雑な物理法則（剛体動力学（ＲＢＤ）と呼ばれる）およびこれらの物理法則の概要のみが通常は知られていることに由来する。さらに、入手できないことが多いロボットの各構成要素の位置、速度および加速度などの物理量の測定は、これらの法則を計算する必要がある。ロボットシステムに搭載されたセンサは、一般に、位置成分のみを測定し（たとえば、エンコーダ、ポテンショメータ、近接センサ...）、速度および加速度は測定されない。

いくつかの従来の機械学習アプローチは、コンピュータビジョンのサブ分野からのものである傾向があり、ソリューションの適用範囲の点で相当な制約をもたらす。たとえば、ＣＮ１０５３８９８５９Ａ特許は、作業状態における清掃作業員をモニタリングするためのモニタリングシステムに関する。この方法は、ＲＦＩＤおよびスマート街灯柱を使用して作業員の出席をモニタリングするインテリジェント街灯柱アプリケーションに基づく。しかし、この方法では、作業員が何をしているか、および、作業員の健康状態がどうであるかが分からない。

さらに、高速かつ強力な機械が非常に速い速度で複雑な動作シーケンスを実行することができる製造では、安全性および品質をモニタリングして制御することが非常に重要である。意図された動作のシーケンスまたはタイミングからの逸脱は、品質を低下させ、原材料を無駄にし、ダウンタイムおよび機器の故障を生じさせ、出力を減少させる可能性がある。ワーカにとっての危険が主な懸案事項である。このため、不測のイベントを最小化するように製造プロセスを注意深く設計するために細心の注意を払わなければならず、さまざまなセンサおよび非常スイッチを使用して生産ラインに安全装置を設計する必要がある。製造のタイプとして、プロセス製造および個別製造がある。プロセス製造では、製品（たとえば、石油、天然ガスおよび塩）は概して区別されない。個別製造は、個々のアイテム（たとえば、自動車、家具、玩具および飛行機）を生産する。安全性を向上させて材料および出力の損失を最小化するための従来のアプローチは、生産ラインがいつ異常に動作しているかを検出して、このような場合に必要であればラインを停止するというものである。これを実現するために、従来のアプローチでは、許容動作領域を定義してその領域外の動作点を検出する測定可能な変数（たとえば、温度、圧力など）の範囲に関する生産ラインの通常動作の説明を使用する。この従来の方法は、通常は物理変数の許容範囲に関して十分な理解があるプロセス製造業界（たとえば、石油精製）では一般的であり、製品品質の品質メトリクスは、これらの変数の観点から直接定義されることが多い。しかし、個別製造における作業プロセスの性質は、プロセス製造におけるものとは異なっており、通常の作業プロセスからの逸脱は、非常に異なった特徴を有している可能性がある。個別製造は、作業単位で行われる動作のシーケンス（機械加工、はんだ付け、組立など）を含む。異常は、１つまたは複数のタスクの誤った実行、またはタスクの誤った順序を含み得る。異常な状況であっても、物理変数（温度または圧力など）は範囲外にならないことが多く、そのため、このような変数の直接的なモニタリングは、このような異常を確実に検出することができない。

したがって、個別製造プロセスを特徴付けることを学習する学習システムのための高度な技術を開発する必要がある。特に、サブステップが人間－ロボット協働チームによって実行され得る個別製造プロセスを対象にした学習システムを開発する必要がある。ここでは、学習システムは、２つのレベルで動作することができ、第１のレベルは、ヒューマンワーカの状態を条件としてロボットがヒューマンワーカに提供できる手助けを調整するプロセスを人間－ロボットコラボレーションレベルで最適化するための方法を学習するというものである。第２のレベルは、いくつかのステップがロボットおよび人間によって実行されることを考慮して、システムレベルで、個別製造プロセス全体において異常を検出することを学習するというものである。

発明の概要
本開示は、一般にモデル学習技術のシステムおよび方法に関し、より具体的にはステップが人間－ロボット協働チームによって実行される個別製造プロセスのためのモデル学習技術のシステムおよび設計に関する。

特に、本開示のいくつかのシステムおよび方法は、製造プロセス全体に沿って速度を最適化し、人間とロボットとの間のインタラクションを最適化して製品の速度および品質を最適化することによって、従来の人間－ロボットコラボレーションプロセス問題を克服する。また、本開示に示されているシステムおよび方法は、ヒューマンワーカの状態の起こり得る変化を考慮に入れながら製造プロセス全体において異常を検出することができる。

製造プロセス全体は、いくつかのステップが人間－ロボット協働チームによって実行される個別製造プロセス（ＤＭＰ）である。ここでは、ＤＭＰ（組立ラインなど）における異常も本開示に従って検出することができる。訓練中、データは、ＤＭＰの通常動作中に得られることができる。通常動作は、通常動作の説明の範囲外の異常な動作を検出することなくある期間にわたる許容動作領域を定義する測定可能な変数（たとえば、温度、圧力など）の範囲に関する生産ラインの通常動作の説明として理解することができる。重要なことに、プロセスの中のいくつかのタスクが人間－ロボット協働チームによって実行される場合、通常動作は、ワーカのさまざまな想定される身体的状態（たとえば、健康である、疲れている、病気である、眠いなど）の間にワーカによって行われる作業を含む。したがって、ＤＭの通常動作中に、ワーカの通常の動作範囲も見られる。このような訓練データ収集は、生産ラインのテスト期間中に学習され得て、数ある測定技術の中で特に、物理変数の許容範囲および製品品質の品質メトリクスを決定して、通常動作を決定することを可能にする。生産ラインの通常動作を決定すると、センサから取得されたデータが取得されて、個別のイベントのストリームを形成するように処理される。これらのイベントから通常動作についてのイベント関係テーブルが構築される。次いで、オンラインタイム処理中に、このテーブルを使用して、リアルタイムで得られたデータを使用してＤＭＰの動作における異常を検出する。テーブルの作成にはいくつかの利点がある。非限定的な例として、テーブルは、ＤＭＰの正確なワークフローまたは通常動作を表すことができる。第二に、有限オートマタなどの従来のモデル化形式主義とは対照的に、テーブルは、並行して実行される複数のサブプロセスをコンパクトかつ正確に表す。このようなサブプロセスは、独立している場合もあれば、連係している場合もある。第三に、テーブルは、複数のサブプロセス間の連係を表す。

人間－ロボットインタラクションについてのいくつかの実施形態は、ヒューマンワーカパフォーマンスの典型的なまたは通常の動作を学習すること、すなわちヒューマンワーカが行う典型的な動きおよびワーカが体験する集中力または疲労のレベルを判断することを含み得る。ヒューマンワーカの状態に左右または影響される個人化されたタスク実行モデルを学習することが、多くの利点を有することが分かった。第１の認識は、タスク実行およびヒューマンワーカの状態における変化および異常を認識することにより、従来の方法と比較して、人間－ロボット製造プロセスにおいてはるかに早く異常を検出できるということである。すなわち、タスク実行およびワーカのヒューマンヘルスは、迫り来る製造プロセス異常の早期警告を提供することができる。第２の認識は、ヒューマンワーカの典型的なパフォーマンスおよび状態を理解することが、この情報自体をロボットと人間との間のコラボレーションに使用することができて、組み合わせ人間／ロボットパフォーマンスを向上させることができることを意味するという認識を含んでいた。これらの進歩は、ロボットとヒューマンワーカとのインタラクションの最適化に由来する。非限定的な例として、閾値アプローチに基づいてヒューマンワーカのパフォーマンスレベルまたはワークの健康状態のいずれかにおいて異常が検出され得る場合、人間がタスクを完了することをロボットが支援する組立ライン環境では、ヒューマンワーカの異常を早期に検出することにより、このヒューマンワーカの異常を吸収するためにロボットアクションを変更するようにロボットに警告することができる。たとえば、ロボットは、疲れているヒューマンワーカのアクションと一致するようにそのアクションを減速させることができる。ロボットアクションの代替例は、さらなるタスクを実行すること、手助けを求めて監督者を呼ぶこと、（さらなる時間を費やして）パーツをヒューマンワーカに近付けること、照明、冷暖房などを追加することによって隣接エリアの快適さを向上させることなどを含み得る。これは、ワーカの状態を条件としてロボットがヒューマンワーカに提供している手助けを調整することによってプロセスを人間－ロボットコラボレーションレベルで最適化するようにプロセス制御システムを設計できると理解され得る。また、プロセス制御システムは、人間／ロボットシステムの全体論的内容を知っており、製造プロセス全体において将来の異常を検出することもできる。たとえば、ＤＭＰのオンラインタイム処理中に、テーブルを使用して、ＤＭＰがリアルタイムで動作している間に将来の／来たるべき異常を検出することができる。テーブルの使用は、製造プロセス全体の速度、正確なワークフローの問題および製造された製品の品質の最適化をもたらすことができる。

人間－ロボット混在組立プロセスにおいて予想されるいくつかの局面は、プロセスの個別の異常モデル、人間の行動のモデル、およびロボット操作のモデルを別々に学習することが不十分であるというものである。ここでの認識は、これらの要素を利用してプロセスの速度および製品の品質を協働して最適化するようにシステムを設計しなければならないというものである。したがって、人間の行動を学習して、人間によって行われる作業の正確な方法を学習することは、プロセス制御システムを設計する際の重要な要素である。ヒューマンワーカの作業の方法を学習するために、ワーカは、進行中の作業プロセスについての情報を収集するセンサ（以下に記載）を装備しなければならない。また、ヒューマンワーカから収集された情報（たとえば、腕の動き）は、タスクラベル（組立、検査、塗装、縫製など）、予想タスク期間（典型的な期間、指定された期間など）およびヒューマンワーカスキルレベル（雇用年数で表すことができる）などのタスク情報を収集することによって、プロセス制御システム内の情報によって強化することができる。これらの特徴は、一緒に訓練データベースに記録されて、ヒューマンパフォーマンスのモデルの学習に使用することができる。

本開示のいくつかの実施形態は、ヒューマンワーカパフォーマンスの説明を統計モデルに取り込む機械学習方法を介してヒューマンパフォーマンスを学習することができる。ここでは、２つのタイプのモデル、すなわち予測モデルおよび分類モデルを利用してもよい。予測モデルは、予想完了時刻を学習するのに使用することができ、ヒューマンワーカがどのようにタスクを実行しているかを示す、センサデータに見られるパターンを効果的に取り込む。分類モデルは、ヒューマンワーカの状態（たとえば、元気である、疲れている、緩慢であるなど）または実行されるタスク（組立、検査、塗装、縫製など）を学習するのに使用することができる。

本開示のいくつかの実施形態は、異常検出メカニズムを作成してタスク完了時刻を予測することによって予測モデルおよび分類モデルから得られる知識を要約している。たとえば、複数の並行プロセスが実行されているとき、イベント関係テーブルを使用して、人間－ロボット製造プロセスにおいて想定されるステップのシーケンスを生成することができる。この情報は、人間－ロボット製造プロセスを特徴付ける。一定の実行時間中、これらのテーブルは、我々が人間－ロボット製造プロセスにおいて通常イベントの正確なシーケンスを生成することを可能にする。重要なことに、イベントのシーケンスは、決定論的であり、各イベントは、単一の先行するイベントのあとに続く。しかし、１つまたは複数のイベントが可変の完了時刻を有している場合、複数のイベントが任意の単一のイベントのあとに続き得る。ここでは、ＤＭＰの通常完了を表すためにいくつかの想定されるイベントシーケンスを生成することができる。ここで、予測タスク完了時刻およびイベント遷移テーブルまたは生成されたＤＭＰの完全なシーケンスを使用して、ワーカの現在の状態およびヒューマンワーカコラボレーションに基づいてプロセスにおける異常を予想することが可能である。言い換えれば、現在の予測完了時刻を考慮して、発生するであろうイベントのシーケンスは、イベント遷移テーブルにおいてＤＭＰを完了させることはなく、ＤＭＰの想定される通常の動作シーケンスの一部でもない。

たとえば、これらの異常検出テーブルおよび予測タスク完了時刻を使用すると、プロセスで発生するであろう異常を予想することが可能である。これは、将来のイベントのシーケンスが異常検出テーブルにおける有効なシーケンスと一致しない場合に起こる。人間ロボットチームがタスクの通常完了時刻を予測しているとする。この場合、イベント遷移テーブルを使用してプロセスの完了までにこの瞬間から生成されたイベントシーケンスは、完全であろう。しかし、ここで、タスクの予測完了時刻が長すぎるとする。この場合、イベント遷移テーブルを使用して生成されたイベントシーケンスは、不完全であろう。これは、長いイベント期間がイベント遷移テーブルにおいて１つのイベントから次のイベントへの無効な遷移を生じさせたために、プロセスが完了しなかったことを意味する。このようにして、完全な製造イベントシーケンスを生成できないことにより、ＤＭではもうすぐ異常が発生し、それが人間－ロボット協働タスクに由来するものであることが分かる。

ヒューマンワーカによる当座の問題の検出は、分類アルゴリズムを使用して完了することができる。分類アルゴリズムは、ヒューマンワーカによって実行されている現在のタスク、および現在のヒューマンワーカ信号から抽出される次のワーカタスクを決定することができる。分類アルゴリズム（すなわち、ヒューマンパフォーマンスモデルの一部である）は、ヒューマンワーカの状態を決定する。次いで、ヒューマンワーカの状態とともに分類アルゴリズムによってヒューマンワーカデータから学習されたさまざまなタイプの異常および異常無しの事前に学習された境界に基づいて、異常分類または異常無しを取得する。人間－ロボットインタラクション（ＨＲＩ）モデルは、現在のロボット動作信号、現在のヒューマンワーカ信号および分類された異常で更新される。ヒューマンワーカと相互作用するロボットの制御アクションまたは異常アラームのタイプは、更新されたＨＲＩモデルおよび分類された異常を使用して決定することができる。ここでは、ヒューマンワーカパフォーマンスを向上させるために、異常アラームが与えられるか、またはロボットヘルパのアクションが変更され得る。次いで、ロボットは、ヒューマンパフォーマンスのレベルを考慮して正しい挙動の例を提供されることによってその挙動を変更することを学習し得て、これはたとえばリアルタイムでなされ得る。重要なことに、この異常アラームは、異常が発生する前に事前に起動されることもできる。なぜなら、ヒューマンパフォーマンスモデルによって生じる予測は、将来のタスク実行シーケンスを生成することができるからである。後述するように、これらの例は、学習手順中に明確に提供または発見され得る。

別の任意のアプローチは、分類アルゴリズムを使用して、予測されたタスクおよびアクションと、予め訓練されてメモリに格納された制御システムからの予想されたタスクおよびアクションとを比較することを含み得て、ヒューマンワーカの状態に関して決定を下すことができる。

本開示のシステムおよび方法を開発する別の局面は、ロボット学習をヒューマンパフォーマンスモニタリングと組み合わせることを含み得る。実験は、人間－ロボット製造プロセス中のロボットと人間との間のインタラクションをよりよく理解することを含んでいた。少なくとも１つの認識は、ロボットと人間オペレータとの間の進行中のインタラクションを推論して対応することができる統計モデル（機械学習）を使用してこのインタラクションを学習するというものであった。これらのモデルを学習するために、ロボットの内蔵センサから、およびカメラのような外部センサから、データが収集された。外部センサは、非限定的な例として、ヒューマンコラボレータの特徴付けを学習するために以前に使用されたセンサと同一のセンサであり得る。次いで、学習済みモデルを使用して、固有の身体的状態（元気である、疲れている、緩慢であるなど）にあるヒューマンコラボレータと相互作用することができるロボットの制御方法を決定することができる。重要なことに、このコラボレーションは、人間－ロボット製造タスクを完了して製品品質を最大化する目的で学習される。たとえば、ロボットは、ヒューマンパフォーマンスのレベルを考慮して正しい挙動の例を提供されることによってその挙動を変更することを学習し得る。後述するように、これらの例は、学習手順中に明確に提供または発見され得る。

本開示の一実施形態に従って、個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを実行する人間－ロボットチームにより上記プロセスにおいて異常を検出するためのプロセス制御システムである。上記プロセス制御システムは、ロボットデータ、製造プロセス（ＭＰ）データ、ヒューマンデータおよび実行可能なモデルを含むデータを格納するように構成されたメモリと、ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）センサからのＨＷ信号とを含む信号を受信するように構成された入力インターフェイスと、上記メモリおよび入力インターフェイスと通信するハードウェアプロセッサとを含み、上記ハードウェアプロセッサは、予測されたイベントのシーケンスを上記ＤＭＰ信号から抽出して、上記ＤＭＰ信号における上記予測されたイベントのシーケンスが、ＤＭＰモデルに記載された上記ＤＭＰの動作の挙動と不一致であるか否かを判断し、上記ＤＭＰ信号からの上記予測されたイベントのシーケンスが上記挙動と不一致である場合、アラームが伝えられるように構成され、上記ＨＷ信号から、タスク完了時刻と、上記ＨＷの状態および予測された次の順番のタスクに関連する測定値と、ヒューマンパフォーマンス（ＨＰ）モデルへの入力とを抽出するように構成され、上記ＨＰモデルは、上記ＨＷの上記状態の事前に学習された境界に基づいて上記ＨＷの上記状態を判断し、上記人間の状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、上記ＨＷモデル、上記ＨＲＩモデルまたはそれら両方からの出力は、異常または異常無しの分類を決定するために上記ＤＭＰモデルに入力され、上記ＨＲＩモデルを上記ロボット動作信号、上記ＨＷ信号および上記分類された異常で更新し、上記更新されたＨＲＩモデルおよび上記分類された異常を使用して、上記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するように構成され、上記プロセス制御システムはさらに、上記更新されたＨＲＩモデルおよび上記分類された異常に基づいて、ロボットアクションを変更するために上記ロボットの上記制御アクションを出力するか、または上記異常アラームの上記タイプを上記ＤＭＰの管理システムに出力するための出力インターフェイスを含む。

本開示の一実施形態に従って、個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを実行する人間－ロボットチームにより上記プロセスにおいて異常を検出するためのプロセス制御システムのための方法である。上記方法は、ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）によって完了されたタスクの測定値の時系列を含むＨＷセンサからのＨＷ信号とを有するテスト信号を受信するステップと、上記ＤＭＰ信号および予想人間－ロボットチーム完了時刻からイベントのシーケンスを予測して、上記ＤＭＰ信号におけるこの予測されたイベントのシーケンスが、ＤＭＰモデルに記載された上記ＤＭＰの動作の挙動と不一致であるか否かを判断し、上記ＤＭＰ信号からの上記予測されたイベントのシーケンスが上記挙動と不一致である場合、アラームが伝えられるステップと、上記ＨＷ信号から、タスク完了時刻と、タスク名と、上記ＨＷの状態および予測された次の順番のタスクに関連する測定値と、以前のヒューマンデータから取得されたヒューマンパフォーマンス（ＨＰ）モデルへの入力とを抽出して、上記ＨＷの上記状態の事前に学習された境界に基づいて上記ＨＷパフォーマンスの状態を取得するステップとを含み得て、次いで、上記ＨＷの上記状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、上記ＨＷモデル、上記ＨＲＩモデルまたはそれら両方からの出力は、異常または異常無しの分類を決定するために上記ＤＭＰモデルに入力され、上記方法はさらに、以前の人間－ロボットデータから取得された上記ＨＲＩモデルを上記ロボット動作信号、上記ＨＷ信号および上記分類された異常で更新し、次いで、上記更新されたＨＲＩモデルおよび上記分類された異常を使用して、上記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するステップと、上記更新されたＨＲＩモデルおよび上記分類された異常に基づいて、ロボットアクションを変更するために上記ロボットの上記制御アクションを出力するか、または上記異常アラームの上記タイプを上記ＤＭＰの管理システムに出力するステップとを含み得て、上記ステップは、メモリに接続されたハードウェアプロセッサによって実行される。

本開示の一実施形態に従って、個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを実行する人間－ロボットチームにより上記プロセスにおいて異常を検出するためのプロセス制御システムのための方法を実行するためのコンピュータによって実行可能なプログラムが組み込まれた非一時的なコンピュータ読取可能記憶媒体である。上記方法は、ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）によって完了されたタスクの測定値の時系列を含むＨＷセンサからのＨＷ信号とを含むテスト信号を受信するステップと、上記ＤＭＰ信号および予想人間－ロボットチーム完了時刻からイベントのシーケンスを予測し、上記ＤＭＰ信号におけるこの予測されたイベントのシーケンスが、ＤＭＰモデルに記載された上記ＤＭＰの動作の挙動と不一致であるか否かを判断し、上記ＤＭＰ信号からの上記予測されたイベントのシーケンスが上記挙動と不一致である場合、アラームが伝えられるステップと、上記ＨＷ信号から、タスク完了時刻と、上記ＨＷの状態および予測された次の順番のタスクに関連する測定値と、以前の人間データから取得されたヒューマンパフォーマンス（ＨＰ）モデルへの入力とを抽出して、上記ＨＷの上記状態の事前に学習された境界に基づいて上記ＨＷの状態を取得するステップとを有し、次いで、上記ＨＷの上記状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、上記ＨＷモデル、上記ＨＲＩモデルまたはそれら両方からの出力は、異常または異常無しの分類を決定するために上記ＤＭＰモデルに入力され、上記方法はさらに、以前の人間－ロボットデータから取得された上記ＨＲＩモデルを上記ロボット動作信号、上記ＨＷ信号および上記分類された異常で更新し、次いで、上記更新されたＨＲＩモデルおよび上記分類された異常を使用して、上記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するステップと、上記更新されたＨＲＩモデルおよび上記分類された異常に基づいて、ロボットアクションを変更するために上記ロボットの上記制御アクションを出力するか、または上記異常アラームの上記タイプを上記ＤＭＰの管理システムに出力するステップとを有し、上記ステップは、メモリに接続されたハードウェアプロセッサによって実行される。

ここに開示されている実施形態について、添付の図面を参照して説明する。図面は、必ずしも一定の縮尺に応じておらず、その代わりに、ここに開示されている実施形態の原理を例示することに強調が置かれている。

本開示の一実施形態に係る方法を示すブロック図である。本開示のいくつかの実施形態に係る、図１Ａの方法を実行するために使用されるいくつかの構成要素を示す概略図である。本開示のいくつかの実施形態に係る、個別製造プロセスの組立ラインにおいてタスクを実行するロボットシステムおよびヒューマンワーカを示す概略図である。本開示のいくつかの実施形態に係る、個別製造プロセス（ＤＭＰ）において異常を検出するための方法の図を示す概略図である。本開示のいくつかの実施形態に係る、ログベースの順序関係テーブルの図を示すテーブルである。本開示のいくつかの実施形態に係る、シーケンスとモデルとの間の整合性を判断することによってイベントシーケンスから異常を検出するための方法の図を示す概略図である。本開示のいくつかの実施形態に係る、訓練データベースに格納される訓練データを取得して、訓練データの収集後に現在のヒューマンワーカデータを取得するための、ヒューマンワーカに関連付けられたセンサからのデータ収集を示す概略図である。本開示のいくつかの実施形態に係る、ヒューマンワーカパフォーマンスタスクをモニタリングするセンサからのデータ収集を示す概略図である。本開示のいくつかの実施形態に係る、ヒューマンワーカパフォーマンスのモデルのいくつかの学習プロセスステップ、およびそれに続く、ヒューマンワーカパフォーマンスのモデルに対するプロセス較正を示すブロック図である。本開示のいくつかの実施形態に係る、ヒューマンワーカパフォーマンスのモデルのいくつかのプロセスステップ、およびそれに続く、ヒューマンワーカパフォーマンスのモデルの利用を示すブロック図である。本開示のいくつかの実施形態に係る、図４Ａのヒューマンワーカパフォーマンスのモデルのいくつかの学習プロセスステップ、およびそれに続く、図４Ａのヒューマンワーカパフォーマンスのモデルを利用するためのいくつかのプロセスステップを示すブロック図である。本開示のいくつかの実施形態に係る、ロボットシステムに接続されたロボットモデル学習プログラム（たとえば、導関数フリーセミパラメトリックガウス過程（Semi-Parametric Gaussian Process：ＳＰＧＰ））学習モデルを含むロボット学習制御装置を示す概略図である。本開示のいくつかの実施形態に係る、予め定められた期間中にロボットシステムの学習プロセスを開始するためにロボットポリシを起動するロボットモデル学習プログラム、すなわち図５Ａの導関数フリーセミパラメトリックガウス過程（ＳＰＧＰ）学習モデルを説明するフローチャートを示すブロック図である。本開示のいくつかの実施形態に係る、人間－ロボット製造プロセス中のロボットと人間との間のインタラクションを示す概略図である。本開示のいくつかの実施形態に係る、ヒューマンモデルとロボットモデルとを組み合わせて協働モデルにすることを示すブロック図である。本開示のいくつかの実施形態に係る、ヒューマンワーカから収集されたデータを使用してヒューマンモデルを訓練することを含む、ヒューマンモデルとロボットモデルとを組み合わせて協働モデルにすることを示すブロック図である。人間およびロボットの両方について個々のモデルを学習し、次いでロボットポリシを向上させるために使用される協働モデルを学習し、最終的にこのロボットポリシは動作中に使用できることを示すブロック図である。本開示のいくつかの実施形態に係る、収集可能であって、プロセス制御システムが異常を検出することを支援するのに使用可能な、バイオメトリックデータおよび他のデータを含むセンシングデータを示すブロック図である。本開示のいくつかの実施形態に係るリストデバイスを示す概略図である。

上記の図面は、ここに開示されている実施形態を説明するが、本明細書に記載されているように他の実施形態も考えられる。本開示は、限定としてではなく代表として例示的な実施形態を示している。多数の他の変形例および実施形態を当業者が考案することができ、これらの変形例および実施形態は、ここに開示されている実施形態の原理の範囲および精神の範囲内である。
実施形態の説明

本開示は、一般にモデル学習技術のシステムおよび方法に関し、より具体的には人間－ロボット協働製造プロセスのためのモデル学習技術のシステムおよび設計に関する。

図１Ａは、本開示の一実施形態に係る方法のブロック図であり、この方法は、個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを実行する人間－ロボットチームによりプロセスにおいて異常を検出するためのプロセス制御システムを含む。このプロセス制御方法は、いくつかのタスクが人間－ロボット協働チームによって実行される個別製造プロセス（ＤＭＰ）においてタスクのシーケンスの中のタスクの実行時に異常を検出することができる。ステップのうちのいくつかは、

ロボット動作信号および他のＤＭＰ構成要素信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）によって完了されたタスクの測定値の時系列を含むＨＷセンサからのＨＷ信号とを含むテスト信号を受信する図１Ａのステップ１５Ａを含む。

図１Ａのステップ２０Ａは、ＤＭＰ信号および予想人間－ロボットチーム完了時刻からイベントのシーケンスを予測し、ＤＭＰ信号におけるこの予測されたイベントのシーケンスが、ＤＭＰモデルに記載されたＤＭＰの動作の挙動と不一致であるか否かを判断し、ＤＭＰ信号からの予測されたイベントのシーケンスが挙動と不一致である場合、アラームが伝えられるステップを含む。

図１Ａのステップ２５Ａは、ＨＷ信号から、タスクデータと、ＨＷの状態に関連する測定値と、以前のヒューマンデータから取得されたヒューマンパフォーマンス（ＨＰ）モデルへの入力とを抽出して、ＨＷの状態の事前に学習された境界に基づいてＨＷの状態を取得するステップを示し、次いで、ＨＷの状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、ＨＷモデル、ＨＲＩモデルまたはそれら両方からの出力は、異常または異常無しの分類を決定するためにＤＭＰモデルに入力される。

図１Ａのステップ３０Ａは、以前の人間－ロボットデータから取得されたＨＲＩモデルをロボット動作信号、ＨＷ信号および分類された異常で更新し、次いで、更新されたＨＲＩモデルおよび分類された異常を使用して、ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するステップを含む。

制御アクションは、（ａ）ヒューマンワーカの状態に従ってロボット速度の量を調整すること、（ｂ）Ｘ軸方向、Ｙ軸方向もしくはＺ軸方向のうちの１つもしくはそれらの組み合わせを含むロボットの方向を調整すること、または（ｃ）制御アクションに従ったロボット動作の変化を示すなどの可聴音声コマンドを起動すること、のうちの１つまたはそれらの組み合わせを含み得る。他の制御アクションは、ロボットのメンテナンス関連アクション、人間およびロボットの両方に対する安全性関連アクション、ならびにロボットの診断関連アクションを含み得ると考えられる。さらに、いくつかの異常検出の分類は、ロボットの速度レベル、ロボットの動き、音声告知、電話をかけること、１つまたは複数の期間にわたるロボット位置の維持、コントローラに送信されたコマンドを介した環境条件の調整などのロボットアクションに関連付けられ得る。他の異常検出の分類は、将来の異常、メンテナンス関連異常、安全性関連異常、損失生産異常、構成要素の故障の異常、品質異常および組立ライン異常の検出などの異常のタイプを含み得る。

図１Ａのステップ３５Ａは、更新されたＨＲＩモデルおよび分類された異常に基づいて、ロボットアクションを変更するためにロボットの制御アクションを出力するか、または異常アラームのタイプをＤＭＰの管理システムに出力するステップを含み、これらのステップは、メモリに接続されたハードウェアプロセッサによって実行される。イベントのシーケンスが動作の挙動と不一致であるという判断を受信すると、伝えられたアラームを人間－ロボット混在プロセスの管理システムに出力することも考えられる。

異常アラームのいくつかのタイプは、即座のアクションを対象とした異常アラームであり得るが、より重要なことに、この異常アラームは、より大きなまたは好ましくない異常が発生する前に事前に起動されることもできる。なぜなら、ヒューマンパフォーマンスモデル、人間－ロボットインタラクションモデルおよびＤＭＰモデルによって見出され得る予測は、将来のタスク実行シーケンスを生成することができるからである。即座のまたは将来の異常アラームのいくつかの例としては、疑わしい組立ライン機械的故障、疑わしい組立ラインへの材料供給問題、ＨＷに起因する生産不足問題、疑わしいロボット関連問題、オペレータ関連タスクもしくは疑わしい電子的故障のうちの１つまたはそれらの組み合わせを挙げることができる。

本開示のいくつかの実施形態によれば、本開示のシステムおよび方法のいくつかの利点は、製造プロセス全体に沿って速度を最適化し、人間とロボットとの間のインタラクションを最適化して速度および製品の品質を最適化することによって、従来の人間－ロボットコラボレーションプロセスの問題を克服する。これは、ワーカの状態を条件としてロボットがヒューマンワーカに提供している手助けを調整することによって人間－ロボットコラボレーションレベルでプロセスを最適化することによって実現することができる。また、本開示に示されている実施形態は、以前はヒューマンワーカの詳細なモデルを学習すること無くして不可能であった製造プロセス全体における将来を見据えた異常検出を提供する。

図１Ｂは、本開示のいくつかの実施形態に係る、図１Ａの方法を実行するために使用されるいくつかの構成要素を示す概略図である。たとえば、図１Ｂは、組み合わせられたロボット－人間モデルの実施形態を実現するために使用することができる。

図１Ｂは、バス５５を介してロボットシステム５８を制御するのに使用されるプロセス制御システム１００を含み、プロセス制御システム１００は、バス５６を介してネットワーク５７に接続するように適合されたネットワークインターフェイスコントローラ（ＮＩＣ）５１を含み得る。ロボットシステム５８、すなわち複数のロボットシステム、ヒューマンワーカをモニタリングするのに使用される入力測定値などの入力測定値を含むデータ５９、ならびに他の想定されるデータとの間でデータをやりとりすることができる。メモリ１４０は、コンピュータによって実行可能なプログラムをストレージ１３０に格納するのに使用することができ、ストレージ１３０は、データ前処理プログラム１３１と、ヒューマンモデルおよびロボットモデルのための統計モデル学習プログラム１３４と、統計モデルに基づく制御プログラム１３５と、統計モデルの学習を初期化するための初期化プログラム１３７とを含み、メモリ１４０と接続したプロセッサ１２０（または、２つ以上のプロセッサ）がある。物体状態履歴データ（図示せず）およびロボット状態履歴データ（図示せず）もストレージ１３０に格納され得る。入力／出力インターフェイス８０、バス８３を介してデバイス８４に接続された制御インターフェイス８２を含む構成要素が存在し得る。

プロセス制御システムのいくつかの任意の構成要素としては、バス６１を介してキーボード６２に接続され、バス６３を介してポインティングデバイス／メディア６４に接続されたヒューマンマシンインターフェイス（ＨＭＩ）６０を挙げることができる。他の任意の構成要素としては、バス７３を介してディスプレイデバイス６７に接続されたディスプレイインターフェイス６６と、バス７４を介してイメージングデバイス６９に接続されたイメージングインターフェイス６８と、バス７５を介して印刷デバイス７２に接続されたプリンタインターフェイス７１とを挙げることができる。

図１Ｃは、本開示の実施形態に係る、個別のタスクを実行する、個別製造プロセスの組立ラインにおけるロボットシステムおよびヒューマンワーカを示す概略図である。ヒューマンパフォーマンスのモデル、ロボット学習プロセスおよび他のプロセスについては、後述の図面において詳細に説明する。組立ラインは、複数のステーションを含み、各ステーションにおいて、少なくとも１つのロボットによって完了される少なくとも１つのタスクを含み、少なくとも１つのロボットは、少なくとも１人のヒューマンワーカが少なくとも１つのタスクを完了することを支援すると考えられる。

ロボットシステム９０は、コントローラ９１と、ロボット状態検出器（たとえば、位置エンコーダ９３）とを含み、位置エンコーダ９３は、ロボット状態信号９２を生成することができる。ロボットシステム９０は、物体状態検出器（たとえば、カメラ９４）も含み得て、カメラ９４は、作業空間または作業台１１のコンベヤ１２においてロボットシステム９０によって操作される物体９５の物体状態信号を生成することができる。ロボットシステム９０は、少なくとも１人のヒューマンワーカ１３が作業台１１上で少なくとも１つのタスクを完了することを支援し、そのため、作業空間またはコンベヤは、ロボットまたはヒューマンワーカのいずれかがタスクを完了することを支援するために順方向および逆方向に移動することができる。なお、これらの構成要素１１～１２および９０～９４は、ここでは一例として示されているが、本開示の実施形態はさまざまな適用例に対してロバストであるため、適用例によって異なっていてもよい。また、ロボット動作データは、任意に、ユーザに特有の関心によっては、ロボット学習プロセス１０１にワイヤレスで送受信され得る。

依然として図１Ｃを参照して、ヒューマンワーカ１３は、データを収集するためのセンサを有し得て、これらのセンサは、リストデバイス１０４、モーションモニタ１０２、オンボディモーションセンサ１０６Ａ，１０６Ｂ、時刻デバイス１０８および環境センサ１０９を含む。これらのデバイスからのデータは、ヒューマンワーカに特有のモデルのための学習プロセスを容易にする。これらのセンサは、まとめて人間状態検出器の一例である。ロボットの制御ポリシを学習するために、人間の状態は、操作対象の物体９５の状態およびロボットシステム９０の状態とともに考慮に入れられる。
個別製造プロセス（ＤＭＰ）における異常検出

図２Ａは、本開示の実施形態に係る、個別製造プロセス（ＤＭＰ）２００において異常を検出するための方法を示す図である。なお、このＤＭＰは、プロセス内にいかなるヒューマンワーカも持たない。本開示の実施形態は、組立ラインなどの個別製造プロセス（ＤＭＰ）において異常を検出するための方法を提供する。訓練中、データは、ＤＭＰの通常動作中に得られる。このデータは、個別のイベントのストリームを形成するように処理される。これらのイベントから通常動作についてのイベント関係テーブルが構築される。次いで、オンラインタイム処理中に、このテーブルを使用して、リアルタイムで得られたデータを使用してＤＭＰの動作における異常を検出する。

このテーブルにはいくつかの利点がある。第一に、テーブルは、ＤＭＰの正確なワークフローまたは通常動作を表すことができる。第二に、有限オートマタなどの従来のモデル化形式主義とは対照的に、テーブルは、並行して実行される複数のサブプロセスをコンパクトかつ正確に表す。このようなサブプロセスは、独立している場合もあれば、連係している場合もある。第三に、テーブルは、複数のサブプロセス間の連係を表す。

いくつかの実施形態は、オフライン訓練と、リアルタイム処理とを含む。訓練は、一回限りの前処理タスクであり得る。代替的に、訓練は、たとえば変わりゆく処理条件に適合するように必要に応じて行われる。上記方法は、当該技術分野において公知であるように、バスによってメモリおよび入力／出力インターフェイスに接続された処理デバイスにおいて実行可能である。

ＤＭＰは、容器２０１～２０２と、製造ロボット２０３～２０４と、コンベヤ２０５～２０６と、アセンブラ２０７とを含む。動作中、ロボットは、容器からパーツをつまみ取って、これらのパーツをコンベヤの上に載せて、組み立てる。

訓練：訓練中、ＤＭＰによって使用されるさまざまなセンサ、スイッチなどから信号２０９が得られる。センサは、ＤＭＰのさまざまな動作構成要素（たとえば、容器、ロボット、コンベヤおよびアセンブラ）に接続され得る。

これらの信号からイベントのシーケンス２２１が抽出される（２１０）。これらのイベントは、訓練データベース２５１に格納される。これらのイベントを使用して関係テーブル２７０を構築し、この関係テーブル２７０は、テーブル２７０に基づく、ＤＭＰの通常動作の観察されたイベントの全ての対同士の間のログベースの順序関係のテーブルである。

検出：このテーブルを使用して、異常スコア２３１を求めることによって、リアルタイムで得られた信号２０９における異常を検出する（２３０）。スコアが予め定められた閾値を超える場合、アラームが伝えられ得る（２４０）。

機械学習：本開示は、機械学習を使用して、データ測定値からイベントシーケンスの関係テーブルを構築する。これらの測定値は、工場デバイス、ロボットおよびワーカから取得される。

イベントシーケンス：上記方法の第１のステップは、ＤＭＰにおける全てのデバイス、ワーカおよびロボットからこのような信号を得るというものである。

図２Ｂは、本開示のいくつかの実施形態に係る、例示的なログベースの順序関係テーブルの図を示すテーブルである。なお、異常検出は、先行技術に見られるような複雑な完全な求められたモデルではなく、関係テーブルに基づく。関係テーブルは、モデルではない。その代わりに、関係テーブルは、ログベースの順序関係テーブルによって表される、ＤＭＰの通常動作中のイベントの対同士の間の発見された位置関係についてのデータログの要約統計量を表す。

タスク期間：タスク期間は、現在のタスクの時刻と、イベントトレースにおける現在のタスクに先行する全てのタスクに対応するイベントの中の最も遅い時刻との間の差である。たとえば、イベント（ｔ１，Ｏｐ２），（ｔ２，Ｏｐ１），（ｔ３，Ｏｐ３）（ｔ１＜ｔ２＜ｔ３）を含むイベントトレースでは、タスクＯｐ３の期間は、ｄ（Ｏｐ３）＝ｔ３－ｔ２である。なぜなら、Ｏｐ１およびＯｐ２は両方ともＳＷＮにおけるＯｐ３の先行タスクであり、Ｏｐ１の方がより遅く、すなわち時刻ｔ２において発生するため、その時刻においてタスクＯｐ３を可能にし、対応するイベントは、ｔ３－ｔ２時間後に発せられる。なお、所与のタスクに対応するイベントは、最初に、最後に、中間に、またはそのタスク中のランダムな時刻に発せられることができる。イベントが常に各タスクの最後に発せられる場合には、収集されたタスク期間ｄは、それぞれのタスクの実行時間を実際に表す。他の場合にはいずれも、タスク期間は、対応するイベントが発せられるまでの時間しか含まないが、１つまたは複数の先行タスクがそれらのイベントを発した時刻と、１つまたは複数の先行タスクが実際に完了された時刻との間の時間も含んでもよい。どの場合がＤＭＰに存在するかにかかわらず、タスク期間は、プロセスの重要な特性であり、異常検出の目的でそのモデルに含めることができる。

任意に、ロボットタスクのタスク期間は、いくつかの方法でモデルに含めることができる。１つの方法は、それらのタスクについての最小期間ｄｍｉｎ（Ｔ）と最大期間ｄｍａｘ（Ｔ）とを求めて、タスク記述子によりそれらの期間を記録するというものである。別の方法は、タスクＴの想定される期間ｄにわたる確率分布ｆＴ（ｄ）（ガウス分布、ベータ分布またはワイブル分布など）のための特定のパラメトリック形式を想定して、その分布についての対応するパラメータ（たとえば、ガウス分布についての平均偏差および標準偏差）を求めるというものである。単純な動作では、タスク期間は、ガウス分布の平均値として近似され得る。

リアルタイム異常検出：図２Ｃは、本開示のいくつかの実施形態に係る、シーケンスとモデルとの間の整合性を判断することによってイベントシーケンスから異常を検出するための方法の図を示す概略図である。リアルタイム処理は、２つの段階、すなわちイベントのシーケンス２２１が、モデルによって表される通常動作と一致するか否かを判断すること（２１０）と、タスク期間がテーブルと一致するか否かを判断すること（２２０）とを有する。ここでは、これは、ロボットによって実行されるタスクのみを対象としていることに注目する。イベントのシーケンスがモデルと一致しているか否かを判断することができ、シーケンスが不一致である場合、最大異常スコアＳｍａｘ３１１がシーケンスに割り当てられ得る。

個別異常検出方法と組み合わせる

上記の方法は、発生するイベントのシーケンスを記載するイベント関係テーブルに依拠する。極めて重要なことに、複数の並行プロセスが実行されているとき、これらのテーブルは、製造プロセスにおける想定されるシーケンスの範囲を記載するタイミング情報を取り込む。この情報は、製造プロセスを記載する特徴付け情報である。

一定の実行時間中、これらのテーブルは、我々が製造プロセスにおいて通常イベントのシーケンスを生成することを可能にする。重要なことに、イベントのシーケンスは、決定論的であり、各イベントは、単一の先行するイベントのあとに続く。しかし、１つまたは複数のイベントが可変である場合、複数のイベントが任意の単一のイベントのあとに続き得る。これらの異常検出テーブルおよび予測タスク完了時刻を使用して、プロセスで発生するであろう異常を予想することが可能である。これは、将来のイベントのシーケンスが異常検出テーブルにおける有効なシーケンスと一致しない場合に起こる。一例として、人間ロボットチームがタスクの通常完了時刻を予測しているとする。この場合、イベント遷移テーブルを使用してプロセスの完了までにこの瞬間から生成されたイベントシーケンスは、完全であろう。しかし、ここで、タスクの予測完了時刻が長すぎるとする。この場合、イベント遷移テーブルを使用して生成されたイベントシーケンスは、不完全であろう。これは、長いイベント期間がイベント遷移テーブルにおいて１つのイベントから次のイベントへの無効な遷移を生じさせたために、プロセスが完了しなかったことを意味する。このようにして、完全な製造イベントシーケンスを生成できないことにより、ＤＭではもうすぐ異常が発生し、それが人間－ロボット協働タスクに由来するものであることが分かる。

ワーカによる当座の問題の検出は、分類アルゴリズムを使用して完了することができる。一例として、手順が図２Ｃに示されている。ここでは、分類アルゴリズムは、ワーカによって実行されている現在のタスクおよび次のワーカタスクを決定する。このようなアルゴリズムの例としては、ユーザが進行中のタスクに集中しているか否かを判断することができるワーカ視線検出アルゴリズムが挙げられる。予測されたタスクおよびアクションと、制御システムからの予想されたタスクおよびアクションとを比較して、ワーカの状態に関して決定を下す。一例として、イベント遷移テーブルからであろうと意図的であろうと、実行対象の現在のタスクが溶接であることを制御システムが知っているとする。そして、分類アルゴリズムが各時間ステップにおいて一貫して、ワーカが溶接を行っていると判断しており、予測アルゴリズムが通常完了時刻を予測しているとすると、ワーカは健康であるにちがいない。一方、分類システムが溶接と切断との間で判断が揺れ動いており、完了時刻の予測が非常に長いとすると、ワーカは疲れているにちがいない。ワーカについてより多くのデータが収集されるにつれて、これらの状態は、改良されることができるとともに、統計モデルパフォーマンスの低下に関連付けられ得る。たとえば、最初は、モデルは、ワーカが疲れていると常に判断するが、モデルは、過去の判断および現在の状態を考慮に入れるように訓練されることができる。そして、より多くのデータが収集されると、モデルは、ワーカがたとえば疲れてきているか作業疲れに達しているかを判断することができる。

ワーカによる問題の検出を全体的なプロセス異常として扱う、またはワーカパフォーマンスを向上させるために変更される、ロボットヘルパに提供されるアクションとして扱うことができることに注目することは重要である。実際、ＤＭＰで異常を宣言する前に、ロボットコントローラは、ヒューマンワーカを支援するための対策を講じるべきであった。この目的のために、人間予測／分類モデルを、ロボットモデルとヒューマンモデルとを組み合わせるコントローラにおいて使用するか、またはロボット学習状態空間における追加の次元として使用することができる。後者は、ロボットによって提供される手助けのタイプの自動学習を容易にするので、重要な認識である。すなわち、ロボットは、製造プロセスの最終製品品質および速度を向上させるために人間の健康状態の各々において取るべき具体的なアクションを学習し得る。上記のように、図２Ｃは、ヒューマンパフォーマンスのモデルを学習し、次いで、ヒューマンパフォーマンスのモデルを利用するプロセスを示している。学習の第１のステップにおいて、図２Ｂに示されるアプローチを使用して収集されたデータの履歴データベースにアクセスすることができる。ここでは、履歴データベースを使用して、予測モデルおよび分類モデルの両方のモデルを学習することができる。
ヒューマンワーカのモデルを学習する

図３Ａは、本開示の実施形態に係る、訓練データベース３０３に格納される訓練データを取得して、訓練データの収集後に現在のヒューマンワーカデータ３０１を取得するための、ヒューマンワーカに関連付けられたセンサからのデータ収集を示す概略図である。たとえば、ヒューマンワーカ３１３は、ワーカ３１３に取り付けられるかまたは埋め込まれたセンサ（リストデバイス３０４または他の人体センサなど）を有し得て、体温、血圧、心拍数／脈拍、呼吸率、Ｏ_２飽和度、皮膚伝導および皮膚温度などのデータを収集することができる。

他のセンサ（モーションモニタ３０２、オンボディモーションセンサ３０６Ａ，３０６Ｂなど）は、行動的識別子（物理的な動き、関与パターン、物理的な動きなど）および身体的識別子（写真および映像、生理学的認識、音声、および身体属性など）などのバイオメトリックデータを収集することができる。また、他のセンサは、時刻デバイス３０８を介してタイムスタンプデータを収集することができ、環境センサ３０７から環境データを収集することができ、このようなデータは、気温、気流速度、湿度、大気質および放射温度を含み得る。

図３Ｂは、本開示の実施形態に係る、ワーカパフォーマンスタスクをモニタリングするセンサ３１１からのデータ収集を示す概略図である。収集されたデータは、ワーカの典型的な状態とともにヒューマンワーカの通常のまたは典型的な動作方法を学習するのに使用することができる。収集されたデータの一部は、ワーカパフォーマンスタスクをモニタリングするセンサからのものであり、これらのセンサは、視線検出器を使用するなどしてモーションをモニタリングするのに使用することができる外部センサ３１７、バイオメトリックデータ３１５、環境センサ３０７、タイムスタンプ３０８およびオンボディモーションセンサ３０６Ａ，３０６Ｂを含み得る。また、ワーカパフォーマンスタスクデータ３２０は、履歴タスクプロセス情報（図１Ｂのメモリ１４０に事前に格納されたタスク情報３２２など）を含む。プロセス制御システムのために収集されるデータは、非限定的な例として、タスクラベリング（組立、検査、塗装、縫製など）、予想タスク期間（典型的な期間、指定された期間など）およびワーカスキルレベル（雇用年数で表すことができる）であり得る。

環境データセンシングは、Ｉ／Ｏモジュール（ワイヤレス通信コンポーネントもしくはオンデバイスユーザインターフェイスを含み得る）、データプロセッサもしくは制御モジュール、電源（リムーバブルもしくは充電式バッテリであり得る）、またはワイヤレス電力変換装置を含み得る。環境データセンシングは、環境のさまざまな特徴（気温、気流速度、湿度、大気質３２８および／または放射温度など）を測定する１つまたは複数のセンサを含み得る。さらに、乱気流およびＣＯ_２センサなどであるがこれらに限定されないセンサが環境データセンシングに含まれる。１つまたは複数のセンサは、ワーカの近傍に位置している。別個のアイテムとして示されているが、環境データセンシングの単一のセンサが２つ以上の変数を測定してもよいということが考えられる。たとえば、気流速度および乱気流強さの測定に全方向性風速計を使用してもよい。別の例では、放射温度は、ＩＲカメラからのデータに基づいて、または球温度計などの別個のセンサを使用して、求められてもよい。いくつかの実施形態において、環境データは、環境のモデルと、環境のモデルの変数の分布とを含み得る。環境のモデルは、窓の場所、ならびに、ドアおよび壁の場所を含み、環境のモデルの変数は、これらの窓およびドアが開いているか閉まっているかを示す。さらに、環境のモデルは、環境内の熱源（コンピュータ、オーブン、ワーカなど）の場所およびタイプを含み、環境のモデルの変数は、熱源の状態を示す。

図３Ｃは、本開示の実施形態に係る、ヒューマンワーカパフォーマンスのモデル３８０のいくつかの学習プロセスステップ、およびそれに続く、ヒューマンワーカパフォーマンスのモデルの利用を示すブロック図である。ヒューマンワーカパフォーマンスのモデル３８０は、ワーカパフォーマンスの説明を統計モデルに取り込む機械学習方法を介して学習される。２つのタイプのモデル、すなわち（１）予測モデルおよび（２）分類モデルを使用することができる。

依然として図３Ｃのステップ１を参照して、訓練データベース３０３に格納された訓練済み予測モデルは、異常検出を支援するのに使用され得るパフォーマンスのレベルに関連する閾値を作成するために、一連のタスクの中のさまざまなタスクについての予想完了時刻のレベルと、ワーカがどのように一連のタスクの中のタスクを実行するかのパターンとを含み得る。

分類モデルは、人間によって行われる作業のスタイルを学習するのに使用することができる。分類モデル、すなわちアルゴリズムは、ワーカによって実行されている現在のタスクおよび次のワーカタスクを、訓練データベース３０３に格納された訓練データから決定することができる。このようなアルゴリズムの例としては、ユーザが進行中のタスクに集中しているか否かを判断することができるワーカ視線検出アルゴリズムが挙げられる。例示的な視線検出アルゴリズムは、タスクの完了中にワーカの視線の位置の分布（ｘ，ｙ座標）を学習する。この分布は、各々の特定のタスクについて固有であると想定される。次いで、既知のタスクについて、ワーカの視線がこの分布に入力されて、特定のタスクに帰属している確率が割り当てられ得る。確率が低い場合、ワーカは、疲れている、注意散漫である、または単に休憩しているであろう。

依然として図３Ｃのステップ１を参照して、ワーカパフォーマンスを追跡する他の方法は、慣性測定センサ、生物学的センサ、環境における外部モニタ、時刻情報、外部モーションセンサ（視線検出器など）からの測定値を使用して構築することができ、これらは、ワーカの状態（たとえば、元気である、疲れている、緩慢であるなど）または実行されるタスク（組立、検査、塗装、縫製など）などの情報を取得するのに使用され得る。分類モデルの一例として、ガウス分布を使用する。この分布は、平均値および分散を使用してパラメータ化される。具体的には、我々は、ワーカの視線のガウス分布を学習したい。ここでは、ワーカの視線は平面内で追跡されるので、学習される分布は二次元であり、平均値－μおよびサイズ２×２の共分散行列Σを有する。モデル学習は、格納された視線データからこれらの平均値および共分散行列を推定することからなる。次いで、各点ｘ，ｙにおいて、分布の値ｆ（ｘ，ｙ，｜μ，Σ）を求めることができる。ワーカがタスクに注意を払っているか否かを分類するために、各々の新たな視線位置ｘ_ｎ，ｙ_ｎが分布ｆ（ｘ_ｎ，ｙ_ｎ｜μ，Σ）に入力される。高確率点ｐは、ワーカが割り当てられたタスクに取り組んでいることを意味する。低確率は、ワーカが注意散漫である、疲れている、休憩している、または異なるタスクに取り組んでいることを意味する。このように使用される分類モデルは、タスク完了が正常であるか否かを判断する。しかし、このアプローチは、タスク同士を区別するのにも使用することができる。各タスクについて分布を学習したとする。この場合、最高確率をもたらす分布は、タスク帰属、すなわち進行中のタスクの分類を決定する。

訓練データベース３０３に格納された訓練済み分類モデルは、異常検出を支援するのに使用され得るワーカの健康レベルに関連する閾値を作成するために、ヒューマンワーカの健康／集中力のレベルを含み得る。たとえば、上記の例を使用して、ワーカの集中力レベルについてさまざまな分布を学習することができる。ここでは、健康な注意怠りないワーカのガウス分布は狭いのに対して、疲れているワーカのガウス分布は広いであろう。既知のタスクでは、これらの異なる分布を比較することにより、ワーカの集中力レベルが明らかになる。分布が１つである場合には、共分散行列Σの変化を追跡してワーカの変化を求めることが可能であろう。一般に、ワーカの健康は、健康レベルを使用して明示的に追跡されるか、または既知のモデルの予測／分類の変化を調べることによって暗黙的に追跡されるかのいずれかであり得る。

依然として図３Ｃのステップ１を参照して、ヒューマンワーカパフォーマンスのモデルまたはパフォーマンスモデル３８０が学習されると、パフォーマンスモデル３８０は、優れたヒューマンワーカパフォーマンスを学習するために継続的に更新される。たとえば、ピークパフォーマンスがワーカによって観察されると、パフォーマンスモデルは更新される。ここでは、ピークパフォーマンスは、所望の適用例の文脈において、たとえばワーカとロボットとが協働して組立ライン上で作業している図１Ｃに示される状況において解釈される。ここでは、ピークパフォーマンスは、１時間当たりの所望の製品、１時間当たりの所望の不良率、またはそれらの組み合わせであってもよい。これらの条件が満たされる場合に、収集されたデータは、実質的に、所望のピークパフォーマンスを生じさせる方法、アクションおよびワーカの状態を説明する。なお、ワーカは、目標パフォーマンスレートを達成することができると想定される。このアプローチは、パフォーマンスモデル３８０に、優れたパフォーマンスの正確なモデルを作成させ、それによりパフォーマンス低下の正確な検出を行わせるであろう。ワーカの典型的なパフォーマンスおよび状態を理解することの少なくとも１つの局面は、ロボットと人間との間のコラボレーション自体がロボットアクションまたはヒューマンワーカアクションの変化を識別する際のものであってもよく、これは、パフォーマンス、すなわちロボット、ヒューマンワーカのパフォーマンス、タスク完了時刻をさらに向上させ、組立ラインまたは生産される製品の全体的速度および品質を向上させる、というものであり得る。「典型的な（通常の）パフォーマンス」は、上記の例に従った所望の製品出力または不良率閾値を満たすものとして定義される。ロボットパフォーマンスを人間の状態に調整し、それによってヒューマンパフォーマンスのモデルをロボットタスク学習に結び付けることの一例は、人間の状態に従ってロボット速度を調整することである。ここでは、ロボットは、人間の状態を速度にマッピングする一組のルールを学習済みである。たとえば、元気なワーカが速度Ａでタスクを実行し、疲れているワーカが速度０．１Ａでタスクを実行し、病気のワーカが速度０．５Ａでタスクを実行することをロボットが学習したとする。この場合、リアルタイムで予測アルゴリズムを使用して、ロボットは、求められたワーカの状態を考慮してどの速度を選択するかを選択することができる。なお、ロボットは、タスク当たり現在のヒューマンパフォーマンスデータに適合するように任意の方向、速度などで移動することができる。

図３Ｃのステップ２は、このワーカのピークパフォーマンスの学習を説明している。ここでは、データは、モニタリングセンサ３１９、ウェアラブルセンサ３０４および既知のタスク情報３２０から継続的に収集される。このデータに加えて、このワーカから収集された事前データのデータベース３０３が利用可能である。特定の適用例において所望である観察されたワーカパフォーマンスが目標パフォーマンスに達すると、データは訓練データベースに保存される。ワーカの他の状態（疲れている、病気である、悲しいなど）について同様のデータベースを作成することができる。次いで、この（これらの）データベース３０３からのデータを使用して、上記の分類モデルおよび予測モデルを見つける。このデータの収集は、非常に重要である。なぜなら、それは、次のステップで説明する異常検出およびプロセスモニタリングに必要な状況を提供するからである。

図３Ｃのステップ３は、上記のステップ１で学習した統計モデルの利用であると考えることができる。ここでは、分類モデルは、ワーカのパフォーマンスが通常から逸脱しているか否かをすぐに検出することができる即時異常検出３８４に使用することができる。また、説明したように、分類モデルの変化は、実際の異常が検出される前にワーカに低下が起こることを観察するのに使用することができる。予測モデルは、ワーカがいつ現在のタスクを完了するかを判断するのに使用することができる。異常検出３８４機能を提供することに加えて、これは、プロセス全体における異常検出も容易にする。なぜかと言うと、この情報は、イベント遷移テーブルを使用して、この時点以降に起こるであろうイベントのシーケンスを生成するのに使用できるからである。そして、異常検出３８４およびプロセス較正３８６は、プロセスのステップ４の一部である。

図３Ｃのステップ４は、モデル利用ステップであると考えることができる。ここでは、格納されたデータ３０３および現在収集されているデータ３０４，３１９，３２０を使用して学習されたモデル３８０を活用する。この実験セットアップを使用して多くの異常検出メカニズムを構築することができる。一例は、完了時刻予測モデルを直接使用して、ワーカが上手く作業しているのかそうでないのかを判断するというものである。より複雑な例は、イベント遷移テーブルにおいて完了時刻を使用して、予測タスク完了時刻を考慮して想定される製造アクションのシーケンスを生成するというものである。いずれの場合にも、モデルは、即座の異常についてアラームを直接送信することができる。しかし、微妙な認識は、異常モデルがプロセス較正３８６にも使用できるというものである。たとえば、上記の視線検出のガウス方法が視線平面において共分散の増加を示している場合、速度および品質を向上させるように製造プロセスを変更することが可能であろう。たとえば、ロボットは、ワーカアクションに一致するようにそのアクションを減速させることによってエラーを減らすように訓練され得る。代替的に、ロボットは、パーツをワーカに近付けて焦点を向上させるように訓練され得る。全体的にみて、現在のワーカによって観察された負荷の一部を他のワーカが肩代わりするように、一連の製造イベントはリルートされてもよい。これは、ワーカをモニタリングする統計モデルが、ワーカの状態に適合するように人間－ロボット製造プロセスを向上させるのにも使用できることを意味する。

図４Ａは、本開示のいくつかの実施形態に係る、ヒューマンワーカパフォーマンスのモデルのいくつかのプロセスステップ、およびそれに続く、ヒューマンワーカパフォーマンスのモデルの利用を示すブロック図である。この図は、このワーカのピークパフォーマンスの学習を具体的に説明している。ここでは、このワーカから収集された事前データのデータベース４００が利用可能である。具体的には、格納されたデータは、その収集方法のために、ワーカが上手く作業している場合のワーカのパフォーマンスを取り込む。それとは別に、データは、ワーカの他の状態（疲れている、病気である、悲しいなど）について注釈を付けられることもできる。次いで、このデータベース４００からのデータを使用して、分類モデルおよび予測モデルを見つける。これらのモデルは、ステップ４０１および４０２において求められ、上記の予測モデルおよび分類モデルであると考えることができる。次いで、これらのモデルは、（上記のように）対応するワーカ状態が検出されると更新され得て、新たなデータが収集される（４０４）。

図４Ｂは、イベント遷移テーブルにおいて図４Ａのヒューマンワーカパフォーマンスの学習済みモデルを使用するいくつかのステップを示すブロック図である。これらのテーブルは、人間－ロボット製造プロセス全体におけるイベントの通常のシーケンスを記載しており、計算効率のよい異常検出方法である。図４Ｂにおいて、履歴データベース４００を使用して、分類モデルを訓練し（４０１）、予測モデルを訓練する（４０２）。次いで、分類モデルは、現在起こっているイベントを予測するので、イベント遷移テーブルを学習するのに使用することができる。本質的に、モデルは、１つのタスクから次のタスクへのワーカの遷移を検出することに役立つ。予測モデルは、タスク完了時刻の分布を学習することによってイベント遷移テーブルを強化するのに使用することができる。イベント遷移テーブルは、適用例に特有の状態に基づくモデルと同様に更新され得る。たとえば、ワーカが所望の不良率で所望の製品出力を達成した場合、典型的な製造シーケンスが作成されて、イベント遷移テーブルが更新され得る。また、さまざまなワーカの状態について遷移テーブルを作成することもできる。

図５Ａは、本開示のいくつかの実施形態に係る、ロボットシステムに接続されたロボットモデル学習プログラム（たとえば、導関数フリーセミパラメトリックガウス過程（ＳＰＧＰ）学習モデル）を含むロボット学習制御装置を示す概略図である。ロボットのための学習システムによって可能にされるロボット学習も本開示の不可欠な部分である。本開示のいくつかの実施形態に従って、他のシステム（非限定的な例として、他のモデルベースの強化学習技術を使用したさまざまなタイプの技術水準の機械学習アプローチからのさまざまなタイプのコントローラ、または、たとえばガウス過程またはニューラルネットワークを使用してデータからモデルが学習され、制御法則がたとえばモデル予測制御によって提供され得る従来の技術水準の制御アプローチからのさまざまなタイプのコントローラなど）を使用することができると考えられる。構成要素５９０，５９１，５９５および作業台５１１は、本開示の実施形態の一部を適用することができる適用例の一例を定義する。

引き続き図５Ａのロボット学習システムを参照して、ロボット学習制御装置５００は、ロボットシステムを制御するのに使用され、初期化および更新済みのロボットポリシをインターフェイス５５０を介してロボットコントローラ５９１に送信する。ロボットコントローラ５９１は、初期化および更新済みのロボットポリシを実行して、物体５９５上でタスクを実行する。さらに、少なくとも１つのロボット状態検出器、すなわち位置エンコーダ５９３によって検出されたロボットシステム５９０のロボット状態信号５９２、物体状態検出器によって検出された物体５９５の物体状態信号、および初期化されたロボットポリシは、データ前処理プログラム５３１に送信され、そこで、これらの信号は前処理されて、ロボット状態履歴５３２および物体状態履歴５３３としてメモリに格納される。少なくとも１つの物体検出器（たとえば、カメラ５９４）によって物体状態信号を検出することができると考えられる。これらの構成要素５９０，５９１，５９５，５９４，５９３は、ここでは一例として示されているが、本開示のいくつかの実施形態に従って、特定のユーザアプリケーションまたはさまざまなタスク関連アプリケーションによって異なっていてもよい。

依然として図５Ａを参照して、学習（訓練）プロセスの最初に、予め定められた期間にわたって探索的な態様でロボットを動かし得る初期ロボットポリシ５３７が、インターフェイス５５０を使用してロボットシステム５９０に送信される。初期ロボットポリシは、任意の信号であり、たとえば正弦波信号、正弦波または不規則信号の合計であり得る。予め定められた期間中、収集されたデータは、入力／出力インターフェイス５５０がデータ前処理プログラム５３１に送信する、それぞれ５９４および５９３によって検出された物体状態およびロボットシステム状態である。データ前処理プログラム５３１では、データは、前処理にかけられて、ロボット状態履歴５３２および物体状態履歴５３３としてメモリに格納され、各時間ステップにおけるこれらの量は、それぞれロボットおよび物体の過去の位置の有限履歴を含む。

ロボットモデル学習プログラム５３４は、たとえば、入力としてロボット状態履歴５３２、物体状態履歴５３３および初期ロボットポリシをとる導関数フリーＳＰＧＰ（ＤＦ－ＳＰＧＰ）であり得る。ＤＦ－ＳＰＧＰモデル学習プログラム５３４を実行する際に、導関数フリーＳＰＧＰ（ＤＦ－ＳＰＧＰ）カーネル学習プログラム（図示せず）および導関数フリーＳＰＧＰモデル学習プログラムが訓練される。５３４において取得された導関数フリーＳＰＧＰモデルを、ロボットが物体５９５上で計算しなければならないタスクのタスク仕様５３６とともに使用して、５３５において更新済みロボットポリシを計算する。５３５において、ロボットポリシは、たとえば反復線形二次ガウス（ｉＬＱＧ）であり得るが、任意のモデルベースの軌道最適化技術と置き換えることができる。５３５において更新済みロボットポリシが学習されると、これは、入力／出力インターフェイス５５０およびコントローラ５９１を介してロボットシステムに送信され得る。ここで、ロボットシステム５９０は、物体５９５上でタスクを実行する。５３４における導関数フリーＳＰＧＰ（ＤＦ－ＳＰＧＰ）モデル学習プログラムおよび５３５におけるポリシアルゴリズム反復線形二次ガウス（ｉＬＱＧ）は、ロボット操作で上手くいくことが示された一例に過ぎない。本開示のいくつかの実施形態によれば、モデル学習プログラム５３４およびポリシ計算５３５は、ここに示されているものに限定されない。モデル５３４は、たとえば標準的なガウス過程、ディープニューラルネットワーク、または順動力学のためのその他の関数近似器であり得る。また、ポリシ５３５は、モデル予測制御などのその他のモデルベースのコントローラであり得る。構成要素５３４および５３５は、モデルフリーポリシアルゴリズム（ＰＩＤコントローラなど）またはモデルフリー強化学習アルゴリズムを使用して特定のモデルを持たないポリシを求めるように、組み合わせることもできる。

図５Ｂは、本開示の実施形態に係る、予め定められた期間中にロボットシステムの学習プロセスを開始するためにロボットポリシを起動するロボットモデル学習プログラム、すなわち図５Ａの導関数フリーセミパラメトリックガウス過程（ＳＰＧＰ）学習モデルを説明するフローチャートを示すブロック図である。

図５Ｂおよび図５Ａを参照して、図５Ｂのステップ１は、ロボットシステムの学習プロセスを起動するためのロボットポリシを計算して初期化する。図５Ｂのステップ２は、初期化されたロボットポリシを制御信号によってロボットシステム（図５Ａの５９０）に図５Ａのインターフェイス５５０を介して送信し、この制御信号を図５Ａのコントローラ５９１に送信することにより、次のステップ（ステップ３）において、初期化されたロボットポリシに従って図５Ａのロボットシステム５９０を移動させる。図５Ｂのステップ３は、図５Ａのロボットシステム５９０によって使用される制御信号を受信して、予め定められた期間にわたって図５Ａの物体５９５を操作する。図５Ｂのステップ４は、図５Ａのロボット状態信号５９２および図５Ａの物体状態検出器５９４からの物体状態信号を収集して、これらの信号を図５Ａのインターフェイス５５０を介して図５Ａのロボット学習制御装置５００に送信する。図５Ｂのステップ５は、初期化されたロボットポリシとともにこれらの信号を図５Ａのデータ前処理プログラム５３１に送受信し、そこで、データは前処理されて、図５Ａのロボット状態履歴５３２および図５Ａの物体状態履歴５３３としてメモリに格納される。図５Ｂのステップ６は、図５Ａの導関数フリーＳＰＧＰ学習モデル５３４を前のステップ（ステップ５）の受信データで更新する。図５Ｂのステップ７は、ロボットシステムが図５Ａの操作対象物体５９５上で計算すべきである図５Ａのタスク５３６を定義する。図５Ｂのステップ８は、定義されたタスクを導関数フリーＳＰＧＰ学習モデルとともに使用して、図５ＡのｉＬＱＧ５３５を使用してロボットポリシを更新する。次いで、図５Ｂのステップ９は、更新されたロボットポリシを、図５Ａのコントローラ５９１に接続された図５Ａのインターフェイス５５０を使用して図５Ａのロボットシステム５９０に送信する。図５Ｂのステップ１０は、図５Ａの導関数フリーＳＰＧＰ学習モデル５３４を使用して取得された図５Ａの更新済みポリシ５３５に従って図５Ａの物体５９４のタスク操作を実行する図５Ａのロボットシステム５９０を介して、更新済みロボットポリシを実行する。

図５Ａを参照して、本開示の局面によれば、モデル学習システム（たとえば、上記の導関数フリーモデル学習プログラム）は、ロボット学習制御装置内に配置されることができ、このロボット学習制御装置は、本開示の実施形態に従って、図１Ｂのプロセス制御システム１００内に配置されるか、または少なくとも図１Ｂのプロセス制御システムの構成要素を含み得る別個のユニットとして配置されることができる。ロボット学習制御装置は、ロボットシステム５９０を制御するのに使用することができ、初期および更新済みポリシプログラムをインターフェイス５５０を介してロボットシステム５９０に送信するように構成され得る。ロボットシステム５９０のロボット状態信号５９２および物体状態信号は、作業台５１１上でロボットシステム５９０によって操作される物体５９５に関して受信される。物体状態信号は、少なくとも１つの物体検出器５９４によって検出され、図１Ｂのメモリ１４０は、コンピュータによって実行可能なプログラムを図１Ｂのストレージ１３０に格納することができ、ストレージ１３０は、データ前処理プログラム１３１と、物体状態履歴データ１３３と、ロボット状態履歴データ１３２と、統計モデル学習プログラム１３４と、更新ポリシプログラム１３５と、初期ポリシプログラム１３７とを含み、図１Ｂのメモリ１４０と接続したプロセッサ１２０（または、２つ以上のプロセッサ）がある。図１Ｂのプロセッサ１２０は、予め設定された期間中に物体を操作するロボットシステムを動作させる学習プロセスを起動するための図１Ｂの初期ポリシプログラム１３７をネットワーク５７を介して図１Ｂのロボットシステム１９５に送信するように構成される。この場合、プロセッサは、上記の予め設定された期間内に受信したロボット状態信号および物体状態信号の組からデータ前処理プログラム５３１を使用して変換された物体状態履歴データおよびロボット状態履歴データに従ってモデル学習プログラム５３４を更新することができ、プロセッサは、更新されたモデル学習プログラム５３４に従って更新ポリシプログラム５３５を更新する。
ロボット学習とヒューマンパフォーマンスモニタリングとを組み合わせる

図６Ａは、本開示のいくつかの実施形態に係る、人間－ロボット製造プロセス中のロボットと人間との間のインタラクションを示す概略図である。このインタラクションを学習するために、統計モデルが使用され、統計モデルは、ロボットと人間オペレータとの間の進行中のインタラクションを推論して対応することができる機械学習に基づく。これらのモデルを学習するために、ロボットの内蔵センサまたはカメラのような外部センサからデータを収集する。外部センサは、たとえばヒューマンコラボレータの特徴付けを学習するために事前に使用されたセンサと同一のセンサ、またはロボットシステムに近接して位置している他の外部センサであり得る。学習済みモデルは、ロボットとヒューマンコラボレータとの組み合わせ表現であり得る。概念レベルでは、この学習済みモデルは、学習プロセス中にヒューマンコラボレータおよびロボットを表す特徴を追加するか、または個々の表現を別々に学習して、その後、これらを組み合わせてグローバルモデルにすることであり得る。

依然として図６Ａを参照して、具体的には、例示的な例として、ロボットモデルがロボットの状態およびアクション空間上と人間の状態およびアクション空間上とで合同で学習される場合を考える。ロボットモデルは、訓練フェーズ中に学習される。訓練フェーズは、外部センサ（たとえば、１つまたは複数のカメラ）および他のセンサによって観察され得るヒューマンデータ（ワーカまたはワーカの集団など）を収集する第１のフェーズで構成され得る。このヒューマンデータを用いて、予測完了時刻または予測ワーカ動作のような量を推論するための予測モデルと、ワーカの状態およびワーカが現在取り組んでいるタスクを推論するための分類モデルとを学習することができる。次いで、第二に、ロボットがワーカを手助けするために遂行しなければならない動作においてロボットがまあまあ上手く機能するようにする制御法則またはポリシを初期化する。これは、運動感覚教示によって、または機械学習技術（強化学習など）を介したシミュレーションを通じて熟練技師が行うことができる。訓練の最終段階は、ロボットおよび人間の状態空間を含む状態空間上で定義されるグローバルモデルを訓練することで構成され得る。ここで、ワーカとロボットとが一緒に作業してタスクを遂行するので、ロボットのポリシをこの学習モデルに適合するように向上させる。これらの適合オンライン機械学習技術は、学習モデルおよびロボットポリシを更新するのに使用することができる。なぜなら、データは、ロボットの内蔵センサおよびヒューマンワーカから収集されるからである。このように、ロボットは、ロボット自体のポリシを完全なものにするだけでなく、ワーカの状態が変化するさまざまな状況に適合することもできる。ロボットは、協働ロボットであるべきであり、および／または、ワーカの安全性を保証するためにコンプライアンスモードで制御されるべきである。

結果として生じるロボット／人間の協働モデルは、人間のさまざまな状態により非常に異なっていることが考えられる。これは、図６Ａに示されており、必要に迫られてこの図は二次元であるが、論理的には任意の次元数に拡張することができる。ここでは、ロボットは、加速または減速という１つの可能なアクションしか有していない。人間は、疲れているまたは元気であるという２つの可能な状態しか有していない。ロボットは、人間が元気である場合にはロボットが速度を速くすることができ、人間が疲れている場合にはロボットが速度を遅くすることができる、ということを学習しなければならない。統計モデルが学習されると、ロボットは、ワーカが疲れている場合には高速アクションのためのコストが高くなり、低速のためのコストが最適になることを学習するであろう。同様のことが、ワーカが元気である場合には逆にして当てはまる。図６Ａは、ヒューマンパフォーマンスモデルの必要性も示している。人間の測定値をロボットに直接送り込むことによってこの同一の原理に到達できるということは確かに事実である。しかし、これにより、ロボットの状態空間がはるかに大きくなって、ノイズおよび計算の複雑さが問題に上乗せされることになるであろう。したがって、最初に人間の状態の進展のモデルを学習して、組み合わせ人間／ロボットモデルにこれを含めることが有利である。

図６Ｂ、図６Ｃおよび図６Ｄは、人間－ロボット協働モデルを開発する複数の方法を示しており、３つの想定される訓練アプローチが、概念を上記した組み合わせ人間－ロボットモデル（すなわち、図６Ｂの６０１Ｂ、図６Ｃの６０８Ｃおよび図６Ｄの６０９Ｄ）を提供することができる。

図６Ｂは、ヒューマンモデル６０４Ｂとロボットモデル６０７Ｂとを組み合わせて協働モデル６０５Ｂにすることに注目した第１のアプローチ６０１Ｂを示す。このモデルは、その対応するデータ、すなわち所与のデータセットに固有であるヒューマンデータ６０２Ｂおよび訓練フェーズ６０３Ｂおよびロボットデータ６０６Ｂおよび訓練フェーズ６１１Ｂを使用する。結果として生じるモデル６０５Ｂは、事前に学習されたモデル６０４Ｂおよび６０７Ｂの両方のモデルの出力に依拠する。このアプローチは、これらのモデルを組み合わせる直接的な方法であり得る。ロボットのポリシは、ロボットモデル６０７Ｂに基づいて、およびロボットが達成しなければならないタスク６１７Ｂ（たとえば、組立ラインにおけるヒューマンワーカを手助けしなければならないタスク）に基づいて、計算される。このポリシは、任意のポリシ最適化アルゴリズム６１２Ｂ、上記のモデルベースの強化学習または最適制御で実現することができる。人間－ロボット協働モデル６０５Ｂが計算されると、これを使用してロボットポリシ６１２Ｂを向上させることができ、ロボットポリシ６１２Ｂは、新たなロボットポリシ６１２Ｂを有するために、ロボットモデル６０７Ｂおよびタスク６１７Ｂを考慮に入れるだけでなく、ヒューマンモデル６０４Ｂの情報も有するように更新され得る。

図６Ｃは、本開示のいくつかの実施形態に係る、ヒューマンワーカから収集されたデータを使用してヒューマンモデルを訓練することを含む、ヒューマンモデルとロボットモデルとを組み合わせて協働モデルにすることを示すブロック図である。これらのモデルを組み合わせるこの第２のアプローチ６０８Ｃは、ヒューマンワーカから収集されたデータ６０２Ｃを使用してヒューマンモデル６０４Ｃを訓練する（６０３Ｃ）によって開始する。次いで、ヒューマンモデル６０４Ｃは、協働モデル６０５Ｃの訓練６１１Ｃ中にロボットデータ６０６Ｃとともに使用される。人間－ロボット協働モデル６０５Ｃが計算されると、これを使用して新たなロボットポリシ６１２Ｃを学習することができる。この第２のアプローチの少なくとも１つの利点は、統合モデルを学習しており、その入力特徴が、ヒューマンワーカについて学習されたモデルを含む、というものである。

図６Ｄは、本開示のいくつかの実施形態に係る、人間およびロボットの両方について個々のモデルを学習し、次いでロボットポリシを向上させるために使用される協働モデルを学習し、最終的にこのロボットポリシは動作中に使用でき、そのためロボットおよび人間が動作している間にデータを収集することができ、この収集されたデータを使用してロボットモデルおよびロボットポリシが継続的に更新されることを示すブロック図である。第３のアプローチ６０９Ｄは、第１のアプローチ６０１Ｂと同様に開始する。ここでは、ヒューマンモデル６０４Ｄとロボットモデル６０７Ｄとを組み合わせて協働モデル６０５Ｄにする。各モデルは、その対応するデータ、すなわち所与のデータセットに固有であるヒューマンデータ６０２Ｄおよび訓練フェーズ６０３Ｄおよびロボットデータ６０６Ｄおよび訓練フェーズ６１１Ｄを使用する。結果として生じるモデル６０５Ｄは、事前に学習されたモデル６０４Ｄおよび６０７Ｄの両方のモデルの出力に依拠する。このモデルを使用して第１のロボットポリシ６１２Ｄを学習する。６０１Ｂにおける第１のアプローチとの違いとしては、ロボットモデル６０７Ｄおよびロボットポリシ６１２Ｄがオンラインで更新されることである。人間が、ロボットポリシ６１２Ｄの下で制御されるロボットと一緒に作業している間に、６１９Ｄにおいて、人間およびロボットの両方からのデータが収集される。このデータは、上記の本開示のいくつかの実施形態で説明したものと同一である。次いで、これらのデータをオンラインで使用して、ロボットモデル６０７Ｄおよびロボットポリシ６１２Ｄを向上させる。更新されたロボットモデルおよびロボットポリシは、適切なロボット動作を確実にするために元のロボットモデル６０７Ｄとともに使用される初期ロボットモデル６０７Ｄおよび初期ロボットポリシ６１２Ｄに対する修正であると考えることができる。

いずれの場合にも、次いで、学習済み協働モデルを使用して、測定値によって表される固有の身体的状態（元気である、疲れている、緩慢であるなど）にある間にコラボレータと相互作用することができるロボットの制御方法を決定する。重要なことに、このコラボレーションは、人間－ロボット製造タスクを完了して製品品質を最大化する目的で学習される。なぜなら、この状況においてデータを収集することは時間がかかる可能性があり、このシステムにおけるロボットはエンジニアードデバイスであるからである。ここでは、学習済みモデルは、物理的知識（たとえば、ロボットの動きの方程式）、人間オペレータの特徴、およびおそらくタスクに依存する特徴を事前情報として機械学習アルゴリズムに組み込むこともできる。

図７Ａは、本開示のいくつかの実施形態に係る、収集可能であって、プロセス制御システムが異常を検出することを支援するのに使用可能である、バイオメトリックデータおよび他のデータを含むセンシングデータを示すブロック図である。たとえば、バイオメトリックデータは、行動的識別子７０１を含み得て、行動的識別子７０１は、物理的な動き７０３と、関与パターン７０５（行動的特徴および行動パターン）と、物理的な動き７０７とを含み得る。他のバイオメトリックデータは、身体的識別子７０２を含み得て、身体的識別子７０２は、写真および映像７０４と、生理学的認識７０６と、音声７０８と、身体属性７１０とを含み得る。収集可能な他のデータは、ワーカのバイタルサイン７２０と、皮膚伝導７２２と、皮膚温度とを含み得る。バイオメトリックデータセンシングは、Ｉ／Ｏモジュール（ワイヤレス通信コンポーネントまたはオンデバイスユーザインターフェイスを含み得る）、制御モジュール、電源（リムーバブルまたは充電式バッテリであり得る）を含み得る。バイオメトリックデータセンシングは、心拍数、ワーカのバイタルサイン７２０、皮膚温度７２４および／または皮膚伝導７２２を測定する１つまたは複数のセンサを含み得る。これらの１つまたは複数のセンサは、ワーカの近傍に位置している。心拍数モニタまたは心拍数センサは、ワーカの心拍数を測定し得る。心拍数センサは、ＬＦ帯域とＨＦ帯域とを区別するのに十分な精度を有するべきである。さらに、心拍数測定値に基づいて、プロセッサモジュールを使用して、高スペクトル周波数（ＨＦ）心拍数変動に対する低スペクトル周波数（ＬＦ）心拍数変動の比率を求めることができる。ＨＦに対するＬＦの比率が高いことは、ワーカの不快レベルが高いことに対応する。ワーカのバイタルサイン７２０は、リモートフォトプレチスモグラフィ（ＲＰＰＧ）センサを利用することによって取得され得る。いくつかの実施形態では、ワーカのバイタルサインを測定するのにウェアラブルデバイスが使用されてもよく、プロセス制御システムの動作中、このウェアラブルデバイスは、プロセス制御システムの入力インターフェイスとリモート通信することができる。

依然として図７Ａおよび図７Ｂを参照して、図７Ａは、皮膚伝導７２２が、ワーカの皮膚からの蒸発伝達に関連付けられたワーカの皮膚の電気的特性の変化を反映するガルバニック皮膚反応として測定され得ることを示している。皮膚温度７２４は、ワーカと環境との間の熱伝達を定量化するのに使用され得る。皮膚伝導測定値および皮膚温度測定値の各々は、特定のワーカの好みを示すそれぞれの予め定義された範囲と比較され得る。バイオメトリックデータセンシングは、ワーカのＩＲ画像を出力するＩＲカメラを含み得る。ＩＲ画像の分析は、衣服の最外層の温度とワーカの皮膚温度とを比較することによって衣服レベルの推定値を提供し得る。バイオメトリックデータを取得するために、１つまたは複数のセンサがワーカの皮膚と直接接触していてもよい。たとえば、センシングは、ウェアラブルデバイス（時計、ブレスレット、ネックレス、靴の中敷きまたはアームバンドなど）であってもよい。図７Ｂは、本開示のいくつかの実施形態に係るウェアラブルリストデバイスの一例を示す概略図である。ウェアラブルデバイス７４６は、ワーカの手首７４８に配置されてもよい。ウェアラブルデバイス７４６は、リスト７５０を表示するとともに、リスト７５０内の各項目についてデータを取得するように構成され得る。たとえば、このような表示およびリスト７５０における取得されたデータは、体温７５１、血圧７５２、脈拍数７５３、呼吸率７５４、Ｏ_２飽和度７５６、皮膚伝導７５７および皮膚温度７５８を含み得る。
ガウス過程回帰を使用したモデルベースの強化学習

ここでは、モデルベースの強化学習ＭＢＲＬにおいて採用されるガウス過程回帰（ＧＰＲ）および軌道最適化アルゴリズムを使用した標準的なモデル学習フレームワークについて説明する。これは、図１Ｂの統計モデル学習１３４、図１Ｂの制御プログラム１３５、図５Ａのモデル学習５３４、図５Ａの更新ポリシ５３５をどのように計算することができるかを技術的に説明する。

ｐ＝１である場合に線形カーネルが取得されることに注目されたい。推定対象のハイパーパラメータは、行列Σ_ＰＩの対角線要素のままである。

セミパラメトリック（ＳＰ）カーネルは、パラメトリックカーネルｋ_ＰＩのグローバル特性およびノンパラメトリックカーネルｋ_ＮＰの柔軟性を活用する。ＳＰカーネルの使用は、ノンパラメトリックカーネルを用いて取得されたモデル学習プログラムの典型的な挙動を、データによって上手く検討されない状態空間のエリアにも上手く一般化するモデル学習プログラムを有し、同時に、モデル化されていない動力学に悩まされるパラメトリックカーネルを用いて取得されたモデル学習プログラムよりも高い精度パフォーマンスを有することが分かった。

強化学習アルゴリズムのための導関数フリーフレームワーク

このセクションでは、物理システムの進展をモデル化するための新規の学習フレームワークが提案される。上記の標準的なモデル化アプローチではいくつかの問題に対処する必要がある。ここでは、本開示のいくつかの実施形態によって解決される主な問題を列挙する。

第１に、数値微分：物理第一原理から計算される任意の物理システムの剛体動力学は、関節の位置、速度および加速度の関数である。しかし、一般的な問題は、関節の速度および加速度は測定できないことが多く、関節の位置の（おそらくノイズの混ざった）測定値から開始して数値微分によってそれらを計算することは、最終的な解に深刻な影響を及ぼす可能性がある、というものである。これは、非常によく知られた、しばしば論じられる問題であり、通常は一部がアドホックフィルタ設計によって対処される。しかし、これは、フィルタのパラメータを調整する際に相当なユーザの知識および経験を必要とし、依然としてさまざまなエラーおよび遅延を生じさせる傾向がある。

第３に、動力学における遅延および非線形性：最後に、物理システムは、いくつかの時刻にわたってシステムに影響を及ぼす固有の遅延および非線形効果の影響を受けることが多く、これは一次マルコフ仮定と矛盾し、このような挙動の例については後述する。
導関数フリー状態定義

上記の制約を克服するために、位置測定値の履歴を状態要素と見なして、導関数フリーの態様でシステム状態を定義する。

式中、ｋ_ｐ∈Ｒは、正の整数である。

状態の定義は、以下のように説明される。場合によっては、物体状態データは、予め定められた期間における物体の位置の一組のシーケンシャルな測定データを表し得て、ロボット状態データは、予め定められた期間におけるロボットの位置の一組のシーケンシャルな測定データを表し得る。

ＰＩＤＦカーネルを用いた状態遷移学習

提案された状態定義は、ＭＤＰの状態遷移関数のためのモデル化技術の必要性を伴う。導関数フリーＧＰＲは、ノンパラメトリック導関数フリーＧＰＲについてのみ既に紹介された。しかし、上記で指摘したように、データ駆動型モデルの一般化パフォーマンスは、ロバストな学習パフォーマンスを保証するには十分でない可能性があり、物理モデルからの最終的な事前情報を活用することが極めて重要である。一方、物理モデルは、位置、速度および加速度に依存しており、導関数フリーフレームワークでのそれらの使用は、標準的な公式化では不可能であり、本開示の実施形態は、この問題を解決する。以下では、いわゆる物理現象からヒントを得た導関数フリー（ＰＩＤＦ）カーネルを取得するための手順が提案される。

特徴

１つまたは複数の異なる実施形態を作成するために局面のうちの１つまたは組み合わせを独立請求項１に含めることができると考えられる。たとえば、これらの局面のうちの１つまたは組み合わせの中には、以下を含むものもある。

一局面は、ＨＷのためのＨＰモデルが、ヒューマンデータにおける一組の境界に対応するＨＷパフォーマンスのさまざまな状態を学習済みであるように事前に構成され、ＤＭＰモデルは、異常または異常無し検出の分類を発行することを支援するために使用される製造プロセスの異なる動作を学習済みであるように事前に構成され、ＨＲＩモデルが、ＨＷのさまざまな状態と最適なロボットアクションとの間のマッピングを学習済みであるように事前に構成される、ということを含み得る。

別の局面は、挙動の訓練データからイベントの対同士の間の見出された位置関係を指定するためにイベント遷移テーブルが使用され、テスト信号からのイベントのシーケンスが挙動と不一致である場合、アラームが伝えられる、というものであり得る。一局面は、イベント遷移テーブルが、訓練フェーズ中に訓練信号から構築され得て、訓練信号は、ＤＭＰの動作中にＤＭＰのモニタリングシステムから得られ、ハードウェアプロセッサは、少なくとも１つのタスクおよび複数のタスクについて最小期間および最大期間を求めることを含む、というものであり得る。さらに、一局面は、イベント遷移テーブルおよび人間ロボットチームの予測完了時刻を考慮してイベントのシーケンスが実現可能であるか否かを判断することであり得る。

別の局面は、入力インターフェイスが、オフライン訓練期間内におけるＤＭＰの訓練動作中に、テストデータを得る前に、および訓練データを受信すると、ＤＭＰセンサから訓練データを得て、ハードウェアプロセッサは、ＤＭＰの訓練動作中に、観察されたイベントの対同士の間の許容位置関係の順序関係のイベント遷移テーブルを構築するためのシーケンスとして、イベントを訓練信号から抽出するように構成され、イベントのシーケンスをメモリに格納するように構成され得る、というものであり得る。さらに、一局面は、ＤＭＰデータが、ＤＭＰ構成要素訓練データ、ＤＭＰ組立ライン訓練データ、ＤＭＰ動作訓練データ、ＤＭＰ管理訓練データなどの他のデータを含み、ＤＭＰ信号が、ＤＭＰ構成要素データ、ＤＭＰ組立ラインデータ、ＤＭＰ動作データ、ＤＭＰ管理データなどの他のデータを含み、ＨＷセンサからのＨＷ信号は、ＨＷによって完了されるタスクの測定値の時系列を含む、というものであり得る。

別の局面は、異常検出の分類のうちのいくつかが、ＨＷの状態に関連付けられたロボットアクションを含み得て、このロボットアクションが、ロボットのさまざまなレベルの速度、Ｘ軸、Ｙ軸およびＺ軸の動き、音声告知、電話をかけること、１つまたは複数の期間にわたるロボット位置の維持、コントローラに送信されたコマンドを介した環境条件の調整を含み、異常の分類のタイプのうちのいくつかが、将来の異常、メンテナンス関連異常、安全性関連異常、損失生産異常、構成要素の潜在的故障の異常、品質異常および組立ライン異常の検出も含む、というものであり得る。さらに、別の局面は、ＨＰモデルが、ＨＷ信号を受信する前に、訓練フェーズ中に、完了した訓練タスクのＨＷ訓練信号から構築され、訓練信号は、完了した訓練タスクの各々の完了した訓練タスクについてデータを含み、このデータは、訓練タスク名、完了した訓練タスクについてのＨＷの複数の訓練状態、および次の順番の訓練タスクを含み、ＨＷ訓練信号およびＨＷ信号は、訓練動作または人間－ロボットチームによるＤＭＰの動作中に、ＨＷに関連付けられたセンサから得られる、というものであり得る。

別の局面は、ＨＰモデルが、ヒューマンタスク実行（ＨＴＥ）モデルおよびＨＷの状態のモデルによって構築され、ＨＴＥモデルが、訓練タスクのシーケンスを完了しながら訓練フェーズ中に取得されたＨＷ訓練信号を使用して訓練された少なくとも１つの予測モデルを使用して構築され、ＨＷの状態のモデルは、ＨＷ訓練信号を使用して訓練された少なくとも１つの分類モデルを使用して構築され、各々の完了した訓練タスクは、ＨＷの複数の状態に関連付けられて、メモリに格納される、というものであり得る。少なくとも１つの予測モデルは、各々の完了したタスクについて予想完了時刻を学習して、センサから取得されたセンサデータに見られるＨＷの動きのパターンを識別するまたは取り込むように構成され、少なくとも１つの統計モデル学習アプローチは、１つまたは複数の予測モデル、１つまたは複数の分類モデル、またはそれら両方を含み、ＨＷが少なくとも１つのタスクを完了するにあたりロボットとインタラクティブに作業している間に、ＨＷのセンサ測定値を考慮して進行中のタスクの完了時刻の推定値を生成することができる。少なくとも１つの分類モデルは、完了したタスクおよび次の順番のタスクのタスクラベルを最初に判断することによってＨＷ信号からＨＷの状態を学習するように構成され、次いで視線検出アルゴリズムを使用してＨＷの状態を判断し、ＨＷの状態は、焦点レベルの量およびタスクを完了するときのＨＷのエネルギレベルの量などである。

一局面は、異常無し検出がもたらされる場合、ＨＷの状態は、ＨＷモデルのＨＷパフォーマンス閾値の予め定められたレベルと比較され、ＨＷがタスクを完了するためのピークパフォーマンスを示すＨＷピークパフォーマンス閾値よりも大きい場合、ＨＰモデルは、ＨＷによってモデルピークパフォーマンスに更新され、ＨＷパフォーマンスのレベルは、受信したＨＷ信号からデータを抽出することによって求められ、このデータは、学習済み統計モデルへのＨＷ測定値の適合、モデルパフォーマンスの劣化、またはＨＷの取得した状態を予測するために使用される特定の学習モデルなどである、というものである。または、一局面は、ＨＷデータが、各々の完了した訓練タスクについてデータを含み、このデータが、ＨＷによる動きのパターン、ＨＷのエネルギレベル、一組のＨＷスキルレベルに関連付けられたスキルレベル、および各々の完了した訓練タスクラベルに関連付けられたパフォーマンスマトリックスに対応するＨＷの状態の履歴レベルのうちの１つまたはそれらの組み合わせなどである、というものであり得る。

一局面は、ＨＰモデルによってヒューマンデータから学習されたさまざまなタイプの異常および異常無しの事前に学習された境界のうちのいくつかが、ＨＷがもう作業を行っていないこと、ＨＷが注意散漫であること、事前に学習された境界に従ってＨＷが疲れているもしくはパフォーマンスが低下していることを示すエネルギレベルをＨＷが体験していること、事前に学習された境界に従ってＨＷが元気であるもしくは高いエネルギレベルで動作していることを示すエネルギレベルをＨＷが体験していること、または、事前に学習された境界に従ってＨＷが疲れていないもしくは元気である（平均的な元気レベルなど）もしくは平均的なＨＷパフォーマンスに関連付けられたエネルギレベルで動作していることを示すエネルギレベルをＨＷが体験していることを含む、というものであり得る。

Claims

個々のアイテムを生産する個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを人間－ロボットチームにより実行する前記プロセスにおいて異常を検出するためのプロセス制御システムであって、
ロボットデータ、製造プロセス（ＭＰ）データ、ヒューマンデータおよび実行可能なモデルを含むデータを格納するように構成されたメモリと、
ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）センサからのＨＷ信号とを含むテスト信号を受信するように構成された入力インターフェイスと、
前記メモリおよび入力インターフェイスと通信するハードウェアプロセッサとを備え、前記ハードウェアプロセッサは、
予測されたイベントのシーケンスを前記ＤＭＰ信号から抽出して、前記ＤＭＰ信号における前記予測されたイベントのシーケンスが、ＤＭＰモデルに記載された前記ＤＭＰの動作の挙動と不一致であるか否かを判断し、前記ＤＭＰ信号からの前記予測されたイベントのシーケンスが前記挙動と不一致である場合、アラームが伝えられるように構成され、
前記ＨＷ信号から、ヒューマンパフォーマンス（ＨＰ）モデルへ入力するヒューマンデータを抽出するように構成され、前記ＨＰモデルは、事前に学習された前記ＨＷの状態の境界に基づいて前記ＨＷの前記状態を判断し、前記ＨＷの前記状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、前記ＨＰモデル、前記ＨＲＩモデルまたはそれら両方からの出力は、人間－ロボットチームにより実行する前記プロセスの異常の分類または異常無しを決定するために前記ＤＭＰモデルに入力され、前記ＨＲＩモデルを前記ロボット動作信号、前記ＨＷ信号および分類された異常で更新し、更新されたＨＲＩモデルおよび前記分類された異常を使用して、前記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するように構成され、前記プロセス制御システムはさらに、
前記更新されたＨＲＩモデルおよび前記分類された異常に基づいて、ロボットアクションを変更するために前記ロボットの前記制御アクションを出力するか、または前記異常アラームの前記タイプを前記ＤＭＰの管理システムに出力するための出力インターフェイスを備え、
前記ＨＲＩモデルは、前記ＨＷの前記さまざまな状態と最適なロボットアクションとの間のマッピングを学習済みであるように事前に構成される、プロセス制御システム。
前記ＨＷのための前記ＨＰモデルは、ＨＷパフォーマンスのさまざまな状態の境界を前記ヒューマンデータにより学習済みであるように事前に構成される、請求項１に記載のプロセス制御システム。
前記挙動の訓練データからイベントの対同士の間の見出された位置関係を指定するためにイベント遷移テーブルが使用され、前記テスト信号からの前記予測されたイベントのシーケンスが前記挙動と不一致である場合、前記アラームが伝えられる、請求項１に記載のプロセス制御システム。
イベント遷移テーブルは、訓練フェーズ中に前記訓練データを含む訓練信号から構築され、前記訓練信号は、前記ＤＭＰの動作中に前記ＤＭＰのモニタリングシステムから得られ、前記ハードウェアプロセッサは、前記少なくとも１つのタスクおよび複数のタスクについてロボットタスクのタスク期間の最小期間および最大期間を求めることを含む、請求項３に記載のプロセス制御システム。
前記イベント遷移テーブルおよび前記人間－ロボットチームのタスクの予測完了時刻を考慮してイベントのシーケンスが実現可能であるか否かを判断することをさらに備える、請求項３に記載のプロセス制御システム。
前記入力インターフェイスは、オフライン訓練期間内における前記ＤＭＰの訓練動作中に、前記テスト信号を得る前に、および前記訓練データを受信すると、前記ＤＭＰセンサから訓練データを得て、前記ハードウェアプロセッサは、
前記ＤＭＰの前記訓練動作中に、前記イベント遷移テーブルを構築するためのシーケンスとして、イベントを前記訓練信号から抽出するように構成され、
前記イベントのシーケンスを前記メモリに格納するように構成される、請求項４に記載のプロセス制御システム。
ＤＭＰデータは、ＤＭＰ構成要素訓練データ、ＤＭＰ組立ライン訓練データ、ＤＭＰ動作訓練データ、ＤＭＰ管理訓練データを含み、前記ＤＭＰ信号は、ＤＭＰ構成要素データ、ＤＭＰ組立ラインデータ、ＤＭＰ動作データ、ＤＭＰ管理データを含み、ＨＷセンサからの前記ＨＷ信号は、前記ＨＷによって完了されるタスクの測定値の時系列を含む、請求項１に記載のプロセス制御システム。
異常検出の分類のうちのいくつかは、前記ＨＷの前記状態に関連付けられたロボットアクションを含み、前記ロボットアクションは、前記ロボットのさまざまなレベルの速度、Ｘ軸、Ｙ軸およびＺ軸での動き、音声告知、電話をかけること、１つまたは複数の期間にわたるロボット位置の維持、コントローラに送信されたコマンドを介した環境条件の調整を含み、
前記異常の分類のタイプのうちのいくつかは、将来の異常、メンテナンス関連異常、安全性関連異常、損失生産異常、構成要素の潜在的故障の異常、品質異常および組立ライン異常の検出も含む、請求項１に記載のプロセス制御システム。
前記ＨＰモデルは、前記ＨＷ信号を受信する前に、訓練フェーズ中に、完了した訓練タスクのＨＷ訓練信号から構築され、前記訓練信号は、前記完了した訓練タスクの各々の完了した訓練タスクについてデータを含み、前記データは、訓練タスク名、前記完了した訓練タスクについての前記ＨＷの複数の訓練状態、および次の順番の訓練タスクを含み、前記ＨＷ訓練信号および前記ＨＷ信号は、訓練動作または前記人間－ロボットチームによる前記ＤＭＰの動作中に、前記ＨＷに関連付けられたセンサから得られる、請求項１に記載のプロセス制御システム。
前記ＨＰモデルは、ヒューマンタスク実行（ＨＴＥ）モデルおよび前記ＨＷの前記状態のモデルによって構築され、前記ＨＴＥモデルは、訓練タスクのシーケンスを完了しながら訓練フェーズ中に取得されたＨＷ訓練信号を使用して訓練された少なくとも１つの予測モデルを使用して構築され、前記ＨＷの前記状態の前記モデルは、前記ＨＷ訓練信号を使用して訓練された少なくとも１つの分類モデルを使用して構築され、各々の完了した訓練タスクは、前記ＨＷの複数の状態に関連付けられて、前記メモリに格納され、
前記予測モデルは、タスクの予測完了時刻またはヒューマンワーカの動きのパターンを推論するためのモデルで、
前記分類モデルは、ヒューマンワーカの状態およびヒューマンワーカが現在取り組んでいるタスクを推論するためのモデルである、請求項１に記載のプロセス制御システム。
前記少なくとも１つの予測モデルは、各々の完了したタスクについて予測完了時刻を学習して、センサから取得されたセンサデータに見られる前記ＨＷの動きのパターンを識別するまたは取り込むように構成され、少なくとも１つの統計モデル学習アプローチは、１つまたは複数の予測モデル、１つまたは複数の分類モデル、またはそれら両方を含み、前記ＨＷが前記少なくとも１つのタスクを完了するにあたり前記ロボットとインタラクティブに作業している間に、前記ヒューマンデータを考慮して進行中のタスクの完了時刻の推定値を生成することができる、請求項１０に記載のプロセス制御システム。
前記少なくとも１つの分類モデルは、完了したタスクおよび次の順番のタスクのタスクラベルを最初に判断することによって前記ＨＷ信号から前記ＨＷの状態を学習するように構成され、次いでタスクの完了中にワーカの視線の位置の分布を学習する視線検出アルゴリズムを使用して前記ＨＷの前記状態を判断する、請求項１０に記載のプロセス制御システム。
前記異常無しが判断される場合、前記ＨＷの前記状態は、前記ＨＰモデルのＨＷパフォーマンス閾値の予め定められたレベルと比較され、前記ＨＷが前記タスクを完了するためのピークパフォーマンスを示すＨＷピークパフォーマンス閾値よりも大きい場合、前記ＨＰモデルは、前記ＨＷによってモデルピークパフォーマンスに更新され、ＨＷパフォーマンスの前記レベルは、学習済み統計モデルを用いて、前記受信したＨＷ信号から抽出したデータによって求められ、前記データは、学習済み統計モデルに適合し、または取得した前記ＨＷの前記状態を予測するために使用される、請求項１に記載のプロセス制御システム。
前記ＨＷ信号は、各々の完了した訓練タスクについてデータを含み、前記データは、前記ＨＷによる動きのパターン、元気レベル、ＨＷスキルレベルに関連付けられたスキルレベルのうちの１つまたはそれらの組み合わせである、請求項１に記載のプロセス制御システム。
前記ＨＰモデルによって前記ヒューマンデータから学習されたさまざまなタイプの異常および異常無しの前記ＨＷの前記状態の境界のうちのいくつかは、ＨＷがもう作業を行っていないこと、ＨＷが注意散漫であること、前記ＨＷの前記状態の境界に従ってＨＷが疲れているもしくはパフォーマンスが低下していることを示すエネルギレベルをＨＷが体験していること、前記ＨＷの前記状態の境界に従ってＨＷが元気であるもしくは高いエネルギレベルで動作していることを示すエネルギレベルをＨＷが体験していること、または、前記ＨＷの前記状態の境界に従ってＨＷが疲れていないもしくは元気である（平均的な元気レベル）もしくは平均的なＨＷパフォーマンスに関連付けられたエネルギレベルで動作していることを示すエネルギレベルをＨＷが体験していることを含む、請求項１に記載のプロセス制御システム。
個々のアイテムを生産する個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを人間－ロボットチームにより実行する前記プロセスにおいて異常を検出するためのプロセス制御システムのための方法であって、
ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）によって完了されたタスクの測定値の時系列を含むＨＷセンサからのＨＷ信号とを含むテスト信号を受信するステップと、
前記ＤＭＰ信号および予測した人間－ロボットチームのタスクの完了時刻からイベントのシーケンスを予測して、前記予測されたイベントのシーケンスが、ＤＭＰモデルに記載された前記ＤＭＰの動作の挙動と不一致であるか否かを判断し、前記ＤＭＰ信号からの前記予測されたイベントのシーケンスが前記挙動と不一致である場合、アラームが伝えられるステップと、
前記ＨＷ信号から、ヒューマンパフォーマンス（ＨＰ）モデルへ入力するヒューマンデータを抽出して、事前に学習された前記ＨＷの状態の境界に基づいて前記ＨＷの状態を取得するステップとを備え、次いで、前記ＨＷの前記状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、前記ＨＰモデル、前記ＨＲＩモデルまたはそれら両方の出力は、人間－ロボットチームにより実行する前記プロセスの異常の分類または異常無しを決定するために前記ＤＭＰモデルに入力され、前記方法はさらに、
前記ＨＲＩモデルを前記ロボット動作信号、前記ＨＷ信号および分類された異常で更新し、次いで、更新されたＨＲＩモデルおよび前記分類された異常を使用して、前記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するステップと、
前記更新されたＨＲＩモデルおよび前記分類された異常に基づいて、ロボットアクションを変更するために前記ロボットの前記制御アクションを出力するか、または前記異常アラームの前記タイプを前記ＤＭＰの管理システムに出力するステップとを備え、前記ステップは、メモリに接続されたハードウェアプロセッサによって実行され、
前記ＨＲＩモデルは、前記ＨＷの前記さまざまな状態と最適なロボットアクションとの間のマッピングを学習済みであるように事前に構成される、方法。
イベント遷移テーブルは、前記挙動の訓練データからイベントの対同士の間の見出された位置関係を指定し、前記テスト信号からの前記予測されたイベントのシーケンスが前記挙動と不一致である場合、前記アラームが伝えられ、以前の製造プロセス（ＭＰ）データ、以前のヒューマンデータおよび以前の人間－ロボットデータは、前記テスト信号を受信する前に取得されて、前記メモリに格納される、請求項１７に記載の方法。
前記異常アラームのタイプは、疑わしい組立ライン機械的故障、疑わしい組立ラインへの材料供給問題、前記ＨＷに起因する生産不足問題、オペレータ関連タスク、もしくは疑わしい電子的故障のうちの１つまたはそれらの組み合わせを含む、請求項１７に記載の方法。
個々のアイテムを生産する個別製造プロセス（ＤＭＰ）内の少なくとも１つのタスクを人間－ロボットチームにより実行する前記プロセスにおいて異常を検出するためのプロセス制御システムのための方法を実行するためのコンピュータによって実行可能なプログラムが組み込まれた非一時的なコンピュータ読取可能記憶媒体であって、前記方法は、
ロボット動作信号を含むＤＭＰセンサからのＤＭＰ信号と、ヒューマンワーカ（ＨＷ）センサからのＨＷ信号とを含むテスト信号を受信するステップと、
前記ＤＭＰ信号および予測した人間－ロボットチームのタスクの完了時刻からイベントのシーケンスを予測して、前記予測されたイベントのシーケンスが、ＤＭＰモデルに記載された前記ＤＭＰの動作の挙動と不一致であるか否かを判断し、前記ＤＭＰ信号からの前記予測されたイベントのシーケンスが前記挙動と不一致である場合、アラームが伝えられるステップと、
前記ＨＷ信号から、ヒューマンパフォーマンス（ＨＰ）モデルへ入力するヒューマンデータを抽出して、事前に学習された前記ＨＷの状態の境界に基づいて前記ＨＷの状態を取得するステップとを備え、次いで、前記ＨＷの前記状態は、人間－ロボットインタラクション（ＨＲＩ）モデルに入力され、前記ＨＰモデル、前記ＨＲＩモデルまたはそれら両方の出力は、人間－ロボットチームにより実行する前記プロセスの異常の分類または異常無しを決定するために前記ＤＭＰモデルに入力され、前記方法はさらに、
前記ＨＲＩモデルを前記ロボット動作信号、前記ＨＷ信号および分類された異常で更新し、次いで、更新されたＨＲＩモデルおよび前記分類された異常を使用して、前記ＨＷと相互作用するロボットの制御アクションまたは異常アラームのタイプを決定するステップと、
前記更新されたＨＲＩモデルおよび前記分類された異常に基づいて、ロボットアクションを変更するために前記ロボットの前記制御アクションを出力するか、または前記異常アラームの前記タイプを前記ＤＭＰの管理システムに出力するステップとを備え、前記ステップは、メモリに接続されたハードウェアプロセッサによって実行され、
前記ＨＲＩモデルは、前記ＨＷの前記さまざまな状態と最適なロボットアクションとの間のマッピングを学習済みであるように事前に構成される、非一時的なコンピュータ読取可能記憶媒体。