JP7443409B2

JP7443409B2 - 作業車両、並びに作業車両に対応する装置、方法及びコンピュータプログラム

Info

Publication number: JP7443409B2
Application number: JP2022041281A
Authority: JP
Inventors: フンスベールヤコブ; マーチンピスターラース; ヤコブセントーマス
Original assignee: Grazper Technologies ApS
Current assignee: Grazper Technologies ApS
Priority date: 2021-03-25
Filing date: 2022-03-16
Publication date: 2024-03-05
Anticipated expiration: 2042-03-16
Also published as: US20220307231A1; KR20220133810A; JP2022151735A; CN115131765A; EP4064118A1

Description

種々の実施例は、作業車両（ユーティリティビークル）、並びに作業車両に対応する装置、方法及びコンピュータプログラムに関する。

車両の安全性は研究及び開発の分野である。例えば、個人向け車両において、カメラベースの人間検出は、これまでナビゲーション及び安全性施行の双方で使用されてきた。例えば、幾つかの最新車両において、歩行者は３次元又は上からの見下ろしビューで自動的に識別され、また視覚化することができる。それに加えて、警報が与えられる、又は車両を自動的に制動することができる。個人向け車両、例えばセダンにおいて、カメラは通常低い高さ（例えば、１ｍ付近）に配置され、画像をベースとする方法を使用しては、車両から人物の３次元位置までの距離を算定するのを困難にする。例えば、このような設定において、近くにいる小さい人、及び遠くにいる大きい人は、視覚的に同じように見えることがあり得る。

同様のシステムは建設機械類に使用される。建設機械類は、通常個人向け車両よりも大型であり、これによりカメラは個人向け車両に比べると僅かに高い高さに配置される。しかし、画像ベースの距離計算に関する難題は依然として残る。これに加えて、このようなシステムは、しばしば建設機械類の周辺距離以内における人間検出のような基本的な機能性しか提供しない。

本開示の様々な態様は、建設現場において、異なる人物が異なる任務を実施する認可を彼らに与えている異なる役割を有し、また異なる人物は建設現場における建設機械類の移動に関する異なるレベルの認知度を有すると推測できるという気付きに基づく。例えば、非熟練労働者は現場監督よりも低いレベルの認知度を有し、また、現場監督は、非熟練労働者とは違う他の任務を実施する認可を有することができる。同様に、建設車両の操作を指図する任務を負っている人物は、建設現場における異なる局面に関連する労働者よりも建設車両の移動に関する高レベルの認知度を有することができる。これに応じて、建設車両の操作を指図する任務を負っている人物は、建設車両を取り巻く安全領域内にいることを許容され得る一方で、建設現場における異なる局面に関連する労働者は安全領域内にいることを許容されないことがあり得る。したがって、建設車両のような作業車両を取り巻く安全ゾーン内における人物検出に基づく安全概念は、人物識別を考慮することができる。例えば、人物の識別に依存するよう、作業車両を取り巻く安全領域における人物の存在は容認することができる（例えば、現場監督又は作業車両の操作を指図する任務を負っている人物が安全領域内で検出される場合）、又は安全領域における違反状況を検出することができる（例えば、非熟練労働者又は建設現場の異なる局面に関連する労働者が安全領域内で検出される場合）。

本開示の様々な態様は、作業車両のための装置に関する。前記装置は、前記作業車両における１つ又はそれ以上のカメラからビデオデータを取得する少なくとも１つのインタフェースを備える。前記装置は、さらに、１つ又はそれ以上のプロセッサを備える。前記１つ又はそれ以上のプロセッサは、前記ビデオデータに現れる１人又はそれ以上の人物を識別又は再識別するよう構成される。前記１つ又はそれ以上のプロセッサは、前記ビデオデータに現れる１人又はそれ以上の人物の識別又は再識別に基づいて、前記作業車両を取り巻く１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するよう構成される。前記１つ又はそれ以上のプロセッサは、前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物における前記違反状況を表す少なくとも１つの信号を供給するよう構成される。１人又はそれ以上の人物を識別又は再識別することによって、異なるレベルの認知度を有する人物間、又は建設現場で任務を実施するための異なる許容度を有する人物間において明確な区別を行うことができる。

１人又はそれ以上の人物の識別又は再識別は、幾つかの手法のうち１つを用いて実施することができる。例えば、前記１つ又はそれ以上のプロセッサは、前記ビデオデータにおける顔認識の使用により１人又はそれ以上の人物を識別するよう構成することができる。顔認識を使用するとき、新たな人物が装置に登録することができ、この登録は、その人物の顔の１つ又はそれ以上の写真を供給することによって行うことができる。

代案として、（視覚的）人物再識別は１人又はそれ以上の人物を再識別するのに使用することができる。視覚的人物再識別は、人物の絶対識別を確立しようとする識別とは対照的に、人物外観からのみ人物を区別又は再識別する目的を果たす。前記１つ又はそれ以上のプロセッサは、人物再識別のために訓練される機械学習モデルの使用により１人又はそれ以上の人物を再識別するよう構成することができる。このケースにおいて、新たな人物は、その人物を表すいわゆる再識別コードを付与することによって、装置に登録することができる。

代替的又は付加的に、１人又はそれ以上の人物が担持又は着用する外部識別子を使用して、１人又はそれ以上の人物を識別することができる。例えば、前記１つ又はそれ以上のプロセッサは、前記ビデオデータにおける前記１人又はそれ以上の人物によって担持される（例えば、着用される）、マシン可読コードを有するバッジのような視覚的識別子を検出することによって、前記１人又はそれ以上の人物を識別するよう構成することができる。代替的又は付加的に、前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物が担持する、能動的無線ビーコン若しくは能動視覚的ビーコンのような能動的ビーコンを検出することによって１人又はそれ以上の人物を識別するよう構成することができる。バッジに含まれる視覚的識別子又は安全ヘルメットに付着されるステッカーに印刷される視覚的識別子のような受動視覚的識別子は、実施が容易であり、これはすなわち、それらはバッジの一部として印刷し、また着用することができるからであるとともに、能動的ビーコンは、それぞれの人物が担持／着用すべき付加的ハードウェアの費用負担で検出するのがより容易である。能動的ビーコンとは対照的に、受動視覚的識別子は、その内容を能動的に送信することなく、それぞれの内容を伝達することができる。

概して、画像における人物を検出する機械学習モデルは、しばしば人物周りにいわゆる「境界ボックス」、すなわち、一方では人物それぞれを完全に包囲する、また他方ではできるだけ小さいものである矩形ボックスの位置を予測するよう訓練される。この境界ボックスを使用して、例えば、境界ボックスと１つ又はそれ以上の安全領域との間におけるオーバーラップを決定することによって、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定することができる。検出の精度を向上するため、１人又はそれ以上の人物のアウトラインは、より高い精度で、例えば、ポーズ推定技術を用いてトレースすることができる。例えば、前記１つ又はそれ以上のプロセッサは、機械学習モデルの使用により前記ビデオデータを処理して、前記ビデオデータに現れる１人又はそれ以上の人物のポーズ情報を決定するよう構成することができる。前記機械学習モデルは、ビデオデータに基づいてポーズ推定データを生成するよう訓練することができる。前記１つ又はそれ以上のプロセッサは、前記ビデオデータに現れる１人又はそれ以上の人物のポーズ情報に基づいて前記１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう構成することができる。例えば、矩形境界ボックス及び１つ又はそれ以上の安全領域のオーバーラップを検出することによって違反状況を決定する代わりに、１人又はそれ以上の人物における肢の実際のアウトラインを使用して、違反状況を決定することができる。

幾つかの実施例において、１つ又はそれ以上の安全領域におけるポーズ情報、及びこれに対応する違反状況は、ビデオデータの各フレームに対して個別に計算することができる。代案として、ビデオデータを複数フレームにわたり解析することができ、違反状況を決定するときにそれぞれのポーズの進展を考慮することができる。例えば、前記機械学習モデルは、前記ビデオデータの複数のフレームの経緯にわたり示される経時的な前記１人又はそれ以上の人物におけるポーズの進展に関する情報とともにポーズ情報を出力するよう訓練することができる。前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物におけるポーズの進展に基づいて前記１人又はそれ以上の人物の予測される行動に関する情報を決定し、また前記１人又はそれ以上の人物の予測される行動に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するよう構成することができる。例えば、予測される行動は、それぞれの人物が１つ若しくはそれ以上の安全領域に向かって若しくは離れる方向に移動しているか否か、又はそれぞれの人物が不注意な若しくは安全でない行動を示しているか否かを示すことができる。

それに応じて、前記１つ又はそれ以上のプロセッサは、経時的な１人又はそれ以上の人物におけるポーズの進展に基づいて、１人又はそれ以上の人物の不注意な又は安全でない行動を決定し、また決定した不注意な又は安全でない行動に基づいて１つ又はそれ以上の安全領域における違反状況を決定するよう構成することができる。換言すれば、１人又はそれ以上の人物の行動は、それぞれの人物における認知度レベルを推定するよう解析することができる。

付加的又は代替的に、１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物におけるポーズの進展に基づいて、１つ又はそれ以上の安全領域に対する１人又はそれ以上の人物の経路を推定し、また１人又はそれ以上の人物の推定した経路に基づいて１人又はそれ以上の安全領域における違反状況を決定するよう構成することができる。例えば、違反状況は、それぞれの人物が１つ又はそれ以上の安全領域における１つに向かって移動する場合に検出することができ、また違反状況は、それぞれの人物が１つ又はそれ以上の安全領域から離れる移動をする場合に無視することができる。

例えば、前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物のポーズに基づいて前記１人又はそれ以上の人物の周りに１つ又はそれ以上の多角形境界領域を生成し、また前記生成した１つ又はそれ以上の多角形境界領域に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物のポーズの違反状況を決定するよう構成することができる。先に概略を説明したように、１人又はそれ以上の人物のポーズに追従する多角形境界領域は矩形境界領域よりも一層精密であり得る。

多くの建設現場において、着用すべき装身具に関するルールがある。例えば、多くの建設現場において、安全ヘルメット、安全ブーツ及び／又は安全ベストが強制的である。さらに、幾つかの品目、例えば、個人用バックパックは禁止されることがあり得る。前記１つ又はそれ以上のプロセッサは、機械学習モデルを使用して、前記１人又はそれ以上の人物が複数の予め規定された品目のうち少なくとも１つを担持しているか否かを決定するよう構成することができ、前記機械学習モデルは、前記ビデオデータにおける前記複数の予め規定された品目を検出するよう訓練されている。前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況は、さらに、前記１人又はそれ以上の人物が前記少なくとも１つの品目を担持しているか否かに基づいて、決定することができる。例えば、該複数の予め規定された品目は、安全装身具のうち１つ又はそれ以上の品目、及び／又は１つ又はそれ以上の禁止品目を含むことができる。例えば、強制的な安全ギアを担持している人物は１つ又はそれ以上の安全領域内にいることを許容することができるとともに、強制的安全ギアがない、又は禁止品目を有する人物は１つ又はそれ以上の安全領域内にいることを許容することはできない。

概して、作業車両は建設現場をあちこち移動することができる。車両の移動に依存して１つ又はそれ以上の安全領域は変化し得る。例えば、作業車両が前進する間に、１つ又はそれ以上の安全領域は（たいていは）車両前方にあり得る。例えば、前記１つ又はそれ以上のプロセッサは、前記作業車両の未来経路を決定し、また前記作業車両の前記未来経路に基づいて前記１つ又はそれ以上の安全領域の範囲を決定又は適合させるよう構成することができる。

違反状況を表す信号のあり得る実施形態としては様々なものがある。例えば、前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を表す前記少なくとも１つの信号は、例えば、ディスプレイに違反状況を描写するための及び／又は可聴アラーム信号を付与するためのディスプレイ信号及び／又は音声信号を有することができる。

例えば、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号は、１つ又はそれ以上の安全領域に対して１人又はそれ以上の人物の視覚表示を含むディスプレイ信号とすることができる。例えば、ディスプレイ信号は、作業車両におけるディスプレイ、又は作業車両のユーザーにおけるディスプレイに供給することができる。例えば、視覚表示は、１つ又はそれ以上の安全領域及び１人又はそれ以上の人物をアウトライン付けする（多角形）境界ボックスを示すオーバーレイを有するビデオデータを見せることができる。

様々な実施例において、前記１つ又はそれ以上のプロセッサは、違反状況を決定するか否かに係わらずディスプレイ信号を生成し、前記ディスプレイ信号内に前記１つ又はそれ以上の安全領域に対して違反する人物を、前記１つ又はそれ以上の安全領域で違反しない人物とは異なる色彩でハイライトしているものとすることができる。このようにして、作業車両を操作している人物も安全領域内で許容されている人物の認知を行うことができる。

幾つかの実施例において、１つ又はそれ以上の安全領域での１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号は、音声警報信号を有することができる。例えば、音声（警報）信号は、作業車両のキャビン内に配置したスピーカー及び／又は作業車両外部の１人又はそれ以上の人物に対して警報するのに適したスピーカーに供給することができる。例えば、作業車両のキャビン内に配置したスピーカーに供給される音声信号は、車両内部から作業車両を操作している人物に対して警報するのに使用することができるとともに、作業車両外部の１人又はそれ以上の人物に対して警報するのに適したスピーカーに供給される音声信号は、例えば、違反状況が決定される場合に、１人又はそれ以上の人物に対して警報するのに使用することができる。

様々な実施例において、ビデオデータは、１つ又はそれ以上の安全領域を上方から見たビューを有する。上方からのビューは、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を検出し易くすることができる。

本開示の様々な実施例は、作業車両のための対応する方法に関する。本開示方法は、前記作業車両における１つ又はそれ以上のカメラからビデオデータを取得するステップを備える。本開示方法は、前記ビデオデータに現れる１人又はそれ以上の人物を識別又は再識別するステップを備える。本開示方法は、前記ビデオデータに現れる１人又はそれ以上の人物の識別又は再識別に基づいて、前記作業車両を取り巻く１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するステップを備える。本開示方法は、前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の行動に関する違反状況を表す少なくとも１つの信号を出力デバイスに供給するステップを備える。

本開示の様々な実施例は、上述した方法を実施するためのプログラムコードを有するコンピュータプログラムであって、前記コンピュータプログラムが、コンピュータ、プロセッサ、処理回路、又はプログラム可能ハードウェアコンポーネント上で実行されるとき前記方法を実施する、該コンピュータプログラムに関する。

本開示の様々な実施例は、上述した装置を備える及び／又は上述した方法を実施するよう構成されている作業車両に関する。作業車両は１つ又はそれ以上のカメラを備える。例えば、上述の装置は作業車両に一体化する、又は上述の方法は作業車両によって実施し、作業車両の操作の安全性を向上することができる。例えば、１つ又はそれ以上のカメラは作業車両の頂部に配置することができる、又は１つ又はそれ以上のカメラは作業車両キャビンの頂部から突出するプラットフォームに配置することができる。双方の配置は、上方から見た１つ又はそれ以上の安全領域のビューを提供するのに好適であり得る。

装置及び／又は方法の幾つかの実施例を以下に単なる例として添付図面につき説明する。
図１ａは、作業車両用の装置の実施例におけるブロック図を示す。図１ｂは、装置を備える作業車両、とくに建設車両の実施例における概略図を示す。図１ｃは、作業車両用の方法の実施例におけるフローチャートを示す。図１ｄは、作業車両用の方法の実施例におけるフローチャートを示す。２つのカメラ、処理コンポーネント及び入出力コンポーネントを備えるシステムの概略図を示す。図３ａ～図3ｂは、車両頂部にカメラを配置する実施例を示す。図４ａ～図4ｃは、作業車両を取り巻く安全領域で検出される人物における可視化の実施例を示す。図５ａ～図5ｃは、静的ポーズの実施例における概略図を示す。図５ｄ～図5ｈは、信号ポーズの実施例における概略図を示す。

幾つかの実施例を以下の添付図面につきより詳細に説明する。しかし、他のあり得る実施例は詳細に説明されるこれら実施形態の特徴に限定されない。他の実施例は、それら特徴の変更並びにそれら特徴の均等物及び代替物を含むことができる。さらにまた、若干の実施例を説明するのに本明細書で使用される用語は、他のあり得る実施例を制限しようとするものではない。

図の説明全体にわたり、同一又は類似の参照符号は同一又は類似の要素及び／又は特徴に言及し、これら同一又は類似の要素及び／又は特徴は、変更形態として同一又は実現され得るものであるとともに、同一又は類似機能を行うことができる。図におけるライン、レイヤ及び／又は面積の太さ（厚さ）は明瞭にするため誇張する場合があり得る。

２つの要素Ａ及びＢが「又は（or）」を使用して結ばれているとき、個別ケースでそれ以外を明示的に定義しない限り、すべてのあり得る組合せ、すなわちＡのみ、Ｂのみ、並びにＡ及びＢを開示するものと理解されるべきである。同一の組合せの代替的表現として、「Ａ及びＢ」又は「Ａ及び／又はＢ」のうち少なくとも一方を使用することができる。このことは、２つより多い要素の組合せにも等しく適用される。

「a」、「an」、及び「the」のような単数形が使用され、また単一要素のみの使用が、明確若しくは暗黙的のいずれかで必須のものとして定義されない場合、他の実施例は、同一機能を実現する上で数個の要素を使用することができる。機能が複数要素を用いて実現されると以下に説明される場合、他の実施例は単一要素又は単一処理実体の使用により同一機能を実現することができる。用語「含む（include）」、「含んでいる（including）」、「備える（comprise）」及び／又は「備えている（comprising）」を使用するとき、特定特徴、整数、ステップ、動作、プロセス、要素、コンポーネント及び／又はそれらのグループの存在を記述するが、１つ又はそれ以上の他の特徴、整数、ステップ、動作、プロセス、要素、コンポーネント及び／又はそれらのグループの存在を排除しない。

本開示の様々な実施例は、概して、建設車両のような作業車両に関し、とくに、自動作業車両安全性励行の概念又は作業車両制御の概念に関する。

以下の説明において、様々な実施例は、作業車両のための装置、このような装置を備える作業車両、対応する方法、及びコンピュータプログラムとして示される。以下の実施例は、安全性励行又は作業車両制御のために、作業車両近傍における人間の画像ベースの自動検出に基づく。

図１ａは、作業車両１００のための装置１０における実施例のブロック図を示す。装置１０は、少なくとも１つのインタフェース１２、及び１つ又はそれ以上のプロセッサ１４を備える。随意的に、装置１０は、さらに、１つ又はそれ以上の記憶装置１６を備える。１つ又はそれ以上のプロセッサ１４は、少なくとも１つのインタフェース１２に、及び随意的な１つ又はそれ以上の記憶装置１６に接続する。概して、装置の機能性は、少なくとも１つのインタフェース１２（例えば、図１ｂに示すような、作業車両の１つ又はそれ以上のカメラ１０２、作業車両の１つ又はそれ以上の出力デバイス１０８、及び／又は１つ又はそれ以上の携帯デバイス２０と情報交換するため）の補助の下で、及び／又は１つ又はそれ以上の記憶装置１６（情報を記憶するため）の補助の下で、１つ又はそれ以上のプロセッサ１４によってもたらされる。例えば、少なくとも１つのインタフェースは、作業車両の１つ又はそれ以上のカメラ１０２からビデオデータを獲得／取得するのに適する、及び／又は獲得／取得するよう構成することができる。

図１ｂは、作業車両１００、とくに、装置１０を備える建設車両の実施例の概略図を示す。図１ｂに示す建設車両はフロントローダである。しかし、同一の概念は、他の作業車両又は建設車両にも使用することができる。例えば、作業車両は、掘削機、コンパクタ、ブルドーザ、地ならし機、クレーン、ローダ、トラック、フォークリフト、道路清掃車、トラクタ、コンバイン、等々のうち１つとすることができる。例えば、作業車両は陸上車とすることができる。しかし、同一の概念はロボットのような他のデバイスにも適用することができ、例えば、静止ロボット（例えば、製造環境で使用するための静止ロボット）又は移動可能な移動若しくは乗り物ロボットにも適用することができる。したがって、ロボットは、装置１０及び１つ又はそれ以上のカメラ１０２を備えることができる。上述したように、作業車両１００は、図１ｂに示すフロントローダのキャビン１０４の頂部に配置した１つ又はそれ以上のカメラ１０２を備える。作業車両は、１つ又はそれ以上の出力デバイス１０８のような１つ又はそれ以上の付加的コンポーネントを備えることができる。例えば、作業車両は、ディスプレイ１０８ａ、キャビン１０４内部に配置したスピーカー１０８ｂ、キャビン１０４外部に配置したスピーカー１０８ｃのうち１つ又はそれ以上を備えることができる。

概して、作業車両１００の様々な態様は、装置１０によって制御される。装置１０によりもたらされる機能性は、図１ｃ及び／又は１ｄに関連して導入される対応の方法に関して表現することもできる。例えば、１つ又はそれ以上のプロセッサ１４は、少なくとも１つのインタフェース１２（情報交換するため）及び／又は１つ又はそれ以上の記憶装置１６（情報を記憶するため）の補助の下で、図１ｃ及び／又は１ｄの方法を実施するよう構成することができる。

図１ｃ及び１ｄは、作業車両１００のための対応する（コンピュータ実装）方法における実施例のフローチャートを示す。この方法は、作業車両における１つ又はそれ以上のカメラからのビデオデータを取得するステップ１１０を備える。この方法は、ビデオデータで現れる１人又はそれ以上の人物を識別又は再識別するステップ１６０を備える。この方法は、さらに、ビデオデータに現れる１人又はそれ以上の人物の識別又は再識別に基づいて作業車両を取り巻く１つ又はそれ以上の安全領域における該１人又はそれ以上の人物の違反状況を決定するステップ１７０を備える。この方法は、１つ又はそれ以上の安全領域における該１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号を供給するステップ１８０を備える。この方法は、図１ｄに示すように、装置１０及び／又は作業車両１００に関連して導入される１つ又はそれ以上の追加の随意的特徴を備えることができる。

以下の説明は、装置１０、作業車両１００、図１ｃ及び／又は１ｄの対応する方法、並びに対応するコンピュータプログラムに関する。装置１０及び／又は作業車両１００に関連して導入される特徴は、対応する方法及びコンピュータプログラムにも同様に適用することができる。

本開示の実施例は、作業車両の１つ又はそれ以上のカメラによって供給されるビデオデータの分析に関する。図２は、２つのカメラ１０２、処理コンポーネント２００及び入力／出力コンポーネント２１０より成るシステムの概略図を示す。例えば、処理コンポーネント２００及び／又は入力／出力コンポーネント２１０は、図１ａ及び１ｂの装置１０によって、例えば、入力／出力コンポーネント２１０のための出力デバイス１０８（ａ～ｃ）との組合せで、実現することができる。図２は、提案した概念（コンセプト）の高レベルの抽象化を示し、この概念において、ビデオデータを、１つ又はそれ以上のカメラ１０２によって発生し、次に１つ又はそれ以上の機械学習モデルを用いて実現できるディープなネットワークプロセスを使用することができる１つ又はそれ以上のアルゴリズム２００によって分析し、また次に、入力／出力コンポーネント２１０を介して、例えば、可視化、音声信号、又は作業車両の態様を制御する制御信号を出力する。

したがって、１つ又はそれ以上のプロセッサ１４は、車両における１つ又はそれ以上のカメラ１０２（図１ａ及び１ｂに示すような）からビデオデータを取得するよう構成される。幾つかのケースにおいて、作業車両は、単一のカメラ、例えば、２Ｄカメラ又は単一の深度（デプス）カメラを備えることができる。しかし、幾つかの実施例において、車両は、作業車両を取り巻く複数の領域をカバーできる複数のカメラ（２又はそれ以上のカメラ）を備えることができる。幾つかの実施例において、複数のカメラは、作業車両を取り巻くオーバーラップしない複数領域をカバーすることができる。しかし、幾つかの実施例において、作業車両を取り巻く複数領域は、部分的にオーバーラップすることができる。例えば、ビデオデータの分析における少なくとも関心対象である領域は、例えば、３次元ポーズ推定を可能にする若しくは容易にする、及び／又は人物が物体によって遮蔽されるのを回避するよう２つ又はそれ以上のカメラによってカバーすることができる。

幾つかの実施例において、ビデオデータは２つ又はそれ以上のカメラから取得する。例えば、２つ又はそれ以上のカメラのビデオデータの視野は、車両の周囲に関する単一の上からの見下ろし統合ビューを形成するよう、「アンラップ（unwrapped）」することができる。代案として、カメラから取得したビデオデータは、統合ビューにおいて「アンラップ」されるのではなく個別に処理することができる（統合ビューはこの後に処理される）。例えば、ビデオデータ、例えば統合ビュー又は個別ビューは、後で使用するため、記録することができる。

多くのケースにおいて、建設車両のような作業車両は、丈高な車両である。例えば、トラック、クレーン、コンパクタ等々は、３メートルの高さとすることができ（又はそれ以上高いことすらあり）、キャビンは、しばしば２メートル又はそれ以上の高さに配置され得る。地面上方のこの高さは、作業車両を取り巻く領域の俯瞰を得るのに使用することができ、これはさらに、人物を遮るのを回避するのに役立てることができる。さらにまた、カメラの高い配置は、作業車両近傍における人物（及び物体）の正確な位置を俯瞰するのを容易にする。したがって、１つ又はそれ以上のカメラは、車両頂部、例えば、作業車両のキャビン１０４の頂部又はその上方に配置することができる。例えば、２～４つの（又は４つより多い、若しくは単に１つだけのことすらある）カメラは、高い位置（例えば、車両のオペレータキャビンの屋根頂部）の車両の各「コーナー」に配置することができる。この概念は単一カメラを用いて実現できるが、カメラの視野は建設現場において妨げられることがあり得る。

図３ａ及び３ｂは、作業車両３００、３１０の頂部におけるカメラ１０２の配置実施例を示す。図３ａは、上方から見た車両の２次元平面面を示し、カメラ１０２は車両の「コーナー」に配置されている。図３ａにおいては、４つのカメラ１０２が作業車両３００のキャビン１０４頂部のコーナーに配置される。図３ｂは、車両の正面図を示す。図３ｂにおいては、カメラ１０２は高い位置に配置され（人間の容易な俯瞰及び正確な位置決めを可能にするため）、例えば、作業車両のキャビン頂部から突出するプラットフォームに配備される。例えば、プラットフォーム１０６を形成するため、後退可能なポールをキャビン１０４の頂部から上昇させることができる。例えば、プラットフォーム１０６はキャビン１０４の屋根の上方に少なくとも１メートルの位置に配置することができる。さらにまた、１つ又はそれ以上のカメラを地面上方に少なくとも２メートル（又は少なくとも３メートル）の高さに配置することができる。この結果として、ビデオデータは、上方からのビュー、例えば、上方からの１人又はそれ以上の人物に関するビュー、又は上方からの作業車両を取り巻く１つ又はそれ以上の安全領域に関するビューを有する。総合して、カメラからのビューは作業車両を取り巻く領域、例えば、１つ又はそれ以上の安全領域をカバーすることができる。

本開示の種々の実施例において、ビデオデータを解析し、ビデオデータに現れている人物のポーズを識別する。例えば、この解析は、機械学習モデル（さらに、「ポーズ推定機械学習モデル」とも称される）の補助で実施することができ、この機械学習モデルは、ビデオデータに基づいてポーズ推定を生成するよう訓練されている。例えば、ポーズ推定機械学習モデルは、ビデオデータでポーズ推定を実施するよう訓練することができる。１つ又はそれ以上のプロセッサは、ポーズ推定機械学習モデルを用いて、ビデオデータに現れている１人又はそれ以上の人物のポーズ情報を決定する処理するよう構成することができる。これに応じて、方法は、ポーズ推定機械学習モデルを用いて、ポーズ情報を決定するビデオデータ処理ステップ１２０を備えることができる。

概して、ポーズ情報は、ビデオデータに現れる１人又はそれ以上の人物がとる（身体）ポーズを識別する。この文脈において、人物のポーズは、１人又はそれ以上の人物の肢における相対位置及び角度に基づく、又はそれらによって形成され得る。例えば、１人又はそれ以上の人物各々は、複数の関節及び複数の肢より成るいわゆるポーズ推定スケルトンによって表現することができる。しかし、ポーズ推定スケルトンの用語「関節（joints）」及び「肢（limbs）」は抽象的な意味で使用され、また必ずしも医学で使用される用語と同一であることを意味するものではない。ポーズ推定スケルトンは模式図（グラフ）であり、関節は模式図の頂点であり、肢は図式の端縁とすることができる。ポーズ推定スケルトンにおいて、関節は肢によって相互連結される。ポーズ推定スケルトンを構築するのに使用される肢のうち幾つかは、生物学的同等部分、例えば、「上腕部」、「下腕部」、「太腿部」（すなわち、上脚部）、「脛」（すなわち、下脚部）、に対応するとともに、ポーズ推定スケルトンは、生物学的な意味では肢と見なされない幾つかの肢、例えば、背骨を表す肢、肩関節を連結する肢、又は股関節を連結する肢を有することができる。実際、肢は、頂点を連結する模式図の端縁に類似して関節を連結する。例えば、肢は、対応する肢を連結する関節で相対的に回転することができる。例えば、ポーズ推定機械学習モデルは、ビデオデータに基づいて、ポーズ推定スケルトン（模式図として）を出力するよう訓練することができる。

幾つかの実施例において、ポーズ推定機械学習モデルは、２次元ポーズ推定データを出力するよう訓練することができる。換言すれば、１人又はそれ以上の人物のポーズ情報は、１人又はそれ以上の人物のポーズに関する２次元ポーズ情報データに基づく又はそれらを有する。このケースにおいて、ポーズ推定データはポーズ推定スケルトンを有することができ、この場合、このスケルトンの関節は、２次元空間内で、例えば、ビデオデータのフレームにおける座標系に対応する座標系内で定義される。例えば、ビデオデータは、ポーズ推定機械学習モデルのための入力として使用することができ、また２次元ポーズ推定データは、ポーズ推定機械学習モデルによって出力することができる。様々な周知の機械学習モデルは、例えば、ディープポーズ（DeepPose）又はディープ・ハイリゾルーション・リプリゼンテーション・ラーニング・フォー・ヒューマン・ポーズ・エスティメーション（ＨＲＮｅｔ）のようなタスクに対して使用することができる。このような２次元ポーズ推定データは、ポーズ情報の後続処理に対して十分であり得る。

しかし、幾つかの実施例において、３次元ポーズ推定データを使用することができ、すなわち、１人又はそれ以上の人物のポーズ情報は、１人又はそれ以上の人物に関する３次元ポーズ推定データを含む若しくはそれらに基づくことができる、及び／又はポーズ推定スケルトンの関節位置を３次元座標系内で定義することができる。例えば、ポーズ推定機械学習モデルは、３次元ポーズ推定を実施するよう訓練することができる。幾つかの実施例において、ポーズ推定機械学習モデルは、複数の観察角度から１人又はそれ以上の人物を示す複数のカメラからのビデオデータに基づいて３次元ポーズ推定を実施するよう訓練することができる。例えば、複数の観察角度は、空間領域周囲に配置されている複数のカメラによって記録されるように、空間領域における１人又はそれ以上の人物の動き及びポーズを示すことができる。代案として、ポーズ推定機械学習モデルは、単一カメラからのビデオデータに基づいて3次元ポーズ推定を実施するよう訓練することができる。このケースにおいて、単一カメラからのビデオデータは、例えば、単一カメラからのビデオデータのみ利用可能であるとき、又は１つ又はそれ以上のカメラの視野が遮られる場合、３次元ポーズを決定するのに十分であり得る。

代案として、３次元ポーズ推定データは、２次元ポーズ推定データに基づいて生成することができる。１つ又はそれ以上のプロセッサは、例えば、他の機械学習モデルを用いて、又は異なる観察角度に基づくポーズ推定データの多重時間同期サンプルにおける三角測量を用いて、２次元ポーズ推定データを後処理して３次元ポーズ推定データを生成するよう構成することができる。

概して、ビデオデータは、複数のビデオデータフレームを有する。幾つかの実施例において、ポーズ推定機械学習モデルは、複数のビデオデータフレームにおける各フレームに対して個別にポーズ推定データを生成かつ出力するよう訓練することができる。代案として、ポーズ推定機械学習モデルは、例えば、フレームにわたりポーズ推定スケルトンの関節を追跡することによって、フレームにわたりポーズ推定データを生成するよう訓練することができる。これは、ビデオデータの多重フレームにわたるポーズの進展を追跡するのに使用することができる。この結果として、ポーズ推定機械学習モデルは、複数フレームの経緯にわたり示される経時的な人物ポーズの進展に関する情報を有するポーズ推定データを出力するよう訓練することができ、またポーズ情報は、ビデオデータの複数フレームの経緯にわたり示される経時的な人物ポーズの進展に関する情報を含むことができる。例えば、経時的な人物ポーズの進展に関する情報は、ポーズ進展のアニメーションを含む、又は生成するのに使用することができる。例えば、ポーズの進展に関する情報、例えば、アニメーションは、さらに、経時的な人物の動きに関する詳細情報を提供するため、他の機械学習モデル／ディープネットワークによって処理することができる。例えば、ポーズ情報は、ビデオデータの各フレーム又は部分集合に対して、２次元又は３次元ポーズ推定データを含むことができる。

幾つかのケースにおいて、ビデオデータは複数の人物を示すことができる。このケースにおいて、ポーズ推定機械学習モデルは、各人物に対して個別にポーズ推定データを出力することができる。例えば、ポーズ推定機械学習モデルの出力は、認識した人物を列挙し、また認識した人物につきポーズ推定データを出力することができる。したがって、ポーズ推定機械学習モデルは、さらに、ビデオデータで見られる複数の人物を区分するため、人物セグメント化を実施するよう訓練することもできる。例えば、ポーズ推定機械学習モデルは、人物の位置、人物の視覚的外観、人物の身体ポーズ、各人物の手足の長さを用いて、又は人物の再識別を用いて、人物を区別するよう訓練することができる。しかし、このケースにおいて、セグメント化は、例えば、個別の機械学習モデルによって、又はセグメント化アルゴリズムによってポーズ推定機械学習モデルの出力に基づいて別個に実施することができる。例えば、１つ又はそれ以上のプロセッサは、ビデオデータが複数人物を示す場合、ポーズ推定機械学習モデルの出力に基づいて人物のポーズ推定データをセグメント化するよう構成することができる。

本開示の第１態様によれば、ビデオデータを使用して、作業車両を取り巻く１つ又はそれ以上の安全領域における１人又はそれ以上の人物の存在を検出する。例えば、１つ又はそれ以上の２Ｄカメラからのビデオフレームを取得することができ、人体部分はディープ・ニューラル・ネットワークを用いてビデオデータ内で検出することができ、また人間が１つ又はそれ以上の安全領域の内側にいる、すなわち、移動する作業中の建設車両に接近し過ぎている場合、警報を発生することができる。

例えば、１つ又はそれ以上のプロセッサは、作業車両を取り巻く１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう構成することができる。概して、１つ又はそれ以上の安全領域は、作業車両をとりまく１つ又はそれ以上の「危険」領域とすることができる。換言すれば、１つ又はそれ以上の安全領域は、作業車両が、１つ又はそれ以上の安全領域内に存在する人物に対して危害を加えるおそれがあるため、違反状況に対してチェックすることができる。例えば、１つ又はそれ以上の安全領域は、作業車両が（車輪を使用して）移動する場合、又は作業車両のコンポーネントが移動する場合（例えば、掘削機のプラットフォームが掘削機のフレームに対して回転する場合、又は掘削機シャベルが移動する場合）に潜在的に危険となり得る。したがって、作業車両を取り巻く１つ又はそれ以上の安全領域は、作業車両の潜在的移動に起因して危険であり得る。

幾つかの実施例において、１つ又はそれ以上の安全領域の場所は、作業車両に対して静的サイズを有し、また静的場所にあり得る。しかし、幾つかの実施例において、１つ又はそれ以上の安全領域は変化し得る。例えば、１つ又はそれ以上の安全領域は、例えば、作業車両のタッチスクリーン・ディスプレイ１０８ａ（図１ｂに示すような）を介して作業車両のオペレータが定義することができる。作業車両のオペレータは、作業車両の潜在的移動に気付くことができ、またこの場合、相応的に１つ又はそれ以上の安全領域を適応させることができる。代替的又は付加的に、１つ又はそれ以上の安全領域は自動的に適応され得る。例えば、１つ又はそれ以上のプロセッサは、１つ又はそれ以上の安全領域の範囲（すなわち、作業車両に対するサイズ及び場所）を自動的に適応させるよう構成することができる。上述したように、安全領域は、作業車両の周りにおける危険領域をカバーするよう設計され、この危険領域は、しばしば作業車両における少なくともコンポーネントの潜在的移動に起因するものである。したがって、１つ又はそれ以上のプロセッサは、作業車両の将来経路を決定するよう、また作業車両の該将来経路に基づく１つ又はそれ以上の安全領域の範囲を決定するよう、構成することができる。例えば、１つ又はそれ以上のプロセッサは、作業車両のその時点での動き及び操舵角度に基づいて、又は後方ビューカメラシステムの経路予測に基づいて、作業車両の該将来経路を決定するよう構成することができる。例えば、１つ又はそれ以上の安全領域の範囲は、予測された将来経路上を走行することによって数秒以内で、例えば、時速５キロメートルにおいて５秒間で潜在的に到達できる、作業車両を取り巻く領域をカバーすることができる。

本開示の文脈において、用語「安全領域（safety area）」は、車両を取り巻く物理的場所を指定することができる。しかし、用語「安全領域（safety area）」は、ビデオデータで示される視野（又は複数視野）の少なくとも一部を指定することができる。例えば、作業車両を取り巻く１つ又はそれ以上の安全領域は、ビデオデータで示される視野（複数可）の１つ又はそれ以上の部分で示され得る。ビデオデータが上方からの１つ又はそれ以上の安全領域を示す場合、ビデオデータで示される人物と１つ又はそれ以上の安全領域との間における交差は、安全領域内にいる人物を表示することができる。カメラを高く配置すればするほど、ビデオデータ内で１つ又はそれ以上の安全領域に交差している人物と、１つ又はそれ以上の安全領域における物理的場所で１つ又はそれ以上の安全領域に進入している人物との間の一致が一層良好になる。

図４ａ～４ｃにおいて、概念の可視化を示す。図４ａ～４ｃは、作業車両を取り巻く安全領域４００内で検出される人物４１０の可視化における実施例を示す。図４ａ～４ｃにおいて、上述した「統合ビュー（unified view）」を使用し、このビューにおいて画像は多重（この場合、２つの）カメラのビデオデータから合成される。ビデオデータの統合ビューにおいて、１つ又はそれ以上の安全領域を表示するユーザー定義領域４００（中央付近に中心があり得る、例えば、デフォルト形状としてダイヤモンド形状を使用して中央付近に中心があり得る）は、人物が認可されない危険領域を画定し得る。図４ａにおいて、多角形（非矩形）境界ボックスで輪郭を描かれた人物は、ダイヤモンド形状４００を形成する２つの安全領域のアウトラインに向かって歩いている状態で示される。図４ａにおいて、人物は安全領域の外側におり、またしたがって、人物の多角形境界領域は、第１色彩（例えば、緑）で示すことができる。図４ｂにおいて、人物４１０は、（人物４１０の脚とともに）安全領域４００内側に示される安全領域内にいる。このケースにおいて、多角形境界領域は第２色彩（例えば、赤色）で表示することができる。図４ｃにおいては、人物は視界から去っている。

様々な実施例において、異なるレベルの安全領域を使用することができる。例えば、１つ又はそれ以上の安全領域は、その安全領域がどのくらい危険であるか、またどのタイプの人物又はどの種類の挙動がその安全領域内で許容されるかに関して、異なることがあり得る。例えば、危険レベルが増している数個の安全領域を定義することができ、また違反状況が生起するときに強度が増す警報信号を供給することができる。

１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況は、ビデオデータに基づいて決定される。例えば、単純な実施例において、人物検出用に訓練された機械学習モデルを使用して、ビデオデータに現れる人物周りに矩形境界ボックスを生成する、又はビデオデータに現れる人物の座標を出力することができる。矩形境界ボックス又は座標がビデオデータに示される１つ又はそれ以上の安全領域に交差する場合に、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を検出することができる。

図４ａ及び４ｂに示すように、単純な人間検出（座標点又は境界ボックス）の代わりに、より詳細な身体ポーズを検出することができる。換言すれば、身体ポーズ解析を実施することができる。このことは、１つ又はそれ以上の安全領域に関するより正確な検出を可能にする。例えば、ポーズ情報、及びとくに、ポーズ推定データを使用して１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定することができる。換言すれば、１つ又はそれ以上のプロセッサは、ビデオデータに現れる１人又はそれ以上の人物のポーズ情報に基づいて１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう構成することができる。例えば、それぞれの人物に加えて広大な空き空間量を囲む矩形境界ボックスを使用する代わりに、ポーズ推定機械学習モデルが生成したポーズ推定データにおける関節（及び肢）の位置に基づいて境界ボックスを再描出することができる。例えば、１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物におけるポーズに基づいて、１人又はそれ以上の人物周りに１つ又はそれ以上の多角形境界領域を形成するよう構成することができる。例えば、１つ又はそれ以上の多角形境界領域は、非矩形の（又は少なくとも必ずしも矩形でない）ものとすることができるが、ポーズ推定スケルトンの肢及び関節に追従して、境界ボックスによってアウトラインを示した人物それぞれを表現することができる。例えば、図４ａ及び４ｂに示すように、肢の凸状外殻（すなわち、最小凸状多角形包摂）を使用して１つ又はそれ以上の多角形境界領域を生成することができる。１つ又はそれ以上のプロセッサは、生成された多角形境界領域に基づいて１つ又はそれ以上の安全領域における１人又はそれ以上の人物のポーズの違反状況を決定するよう構成することができる。例えば、多角形境界領域がビデオデータに示される１つ又はそれ以上の安全領域に交差する場合、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を検出することができる。

代替的又は付加的に、１人又はそれ以上の人物の足はそれぞれのポーズ推定スケルトン及び／又はスケルトンに基づいて識別することができ、また１人又はそれ以上の人物の足がビデオデータに示される１つ又はそれ以上の安全領域に交差する場合、違反状況を検出することができる。換言すれば、１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物の１つ又はそれ以上のポーズ推定スケルトンにおける足がビデオデータに示される１つ又はそれ以上の安全領域に交差することに基づいて、１つ又はそれ以上の安全領域における１人又はそれ以上の人物によるポーズの違反状況を決定するよう構成することができる。

幾つかの実施例において、１人又はそれ以上の人物がとる静的ポーズだけでなく考慮することができる。ビデオデータを解析しているとき、１つ又はそれ以上の人物のポーズをビデオデータにおける多重フレームにわたり追跡することができ、１人又はそれ以上の人物のポーズ進展を決定することができる。このポーズ進展を使用して、１人又はそれ以上の人物の行動を推定することができる。例えば、単一フレームに現れるポーズに基づいて１つ又はそれ以上の安全領域における違反状況を決定する代わりに、行動を解析して、例えば、違反状況が単に一時的である（それぞれの人物が１つ又はそれ以上の安全領域から退出しようとしている）か否か、又は違反状況は全くないか否かを決定することができ、これはすなわち、１つ又はそれ以上の安全領域の危険性はそれぞれの人物が注意を払っているか否かに基づき得るからである。画像ベースの機械学習モデル、例えば、ディープネットワークの使用により身体部分を識別することによって、画像内で見える人物に関する行動情報を抽出することができる。追加の画像認識を使用することにより、人間行動について精度を増して推測する、例えば、静止状態に留まっていることから退去している人物を区別することを可能にする。

例えば、１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物のポーズ進展に基づいて１つ又はそれ以上の安全領域に対する１人又はそれ以上の人物の経路を推定するよう構成することができる。例えば、それぞれの人物がとるポーズは人物の向き（例えば、人物の注視に基づいて）を示すことができ、またポーズ進展は、人物が（一体全体）歩いているか否かを示すことができる。向きに基づいて、及び人物が歩いているか否かに基づいて、それぞれの人物の経路を推定することができる。１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物の推定された経路に基づいて、１つ又はそれ以上の安全領域における違反状況を決定するよう構成することができる。例えば、人物の推定された経路が、その人物はまさに１つ又はそれ以上の安全領域から立ち去ろうとしている（例えば、次の１～２秒以内に）ことを示している場合、違反状況を無視することができる。人物の推定された経路が、その人物は１つ又はそれ以上の安全領域に留まりそうである場合、１つ又はそれ以上の安全領域は違反された状況にあると見なすことができる。

付加的又は代替的に、１人又はそれ以上の人物の行動は、１人又はそれ以上の人物の注意力に関して解析することができる。例えば、１つ又はそれ以上のプロセッサは、経時的な１人又はそれ以上の人物におけるポーズ進展に基づいて１人又はそれ以上の人物の予測される行動に関する情報を決定するよう構成することができる。これに応じて、方法は、経時的な１人又はそれ以上の人物におけるポーズ進展に基づいて１人又はそれ以上の人物の予測される行動に関する情報を決定するステップ１４０を備える。例えば、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況は、１人又はそれ以上の人物の予測された行動に基づいて決定することができる。１人又はそれ以上の人物における身体ポーズ又は動きの解析を用いて、例えば、注意深くない人物（例えば、注視方向解析によって）、又は安全でない行為に参画している人物、座っている、横たわっている等々のような好ましくない行動を呈している人物を識別することができる。例えば、１つ又はそれ以上のプロセッサは、経時的な１人又はそれ以上の人物におけるポーズ進展に基づいて１人又はそれ以上の人物の注意深くない又は安全でない行動を決定するよう構成することができる。例えば、１つ又はそれ以上のプロセッサは、１人若しくはそれ以上の人物のポーズ及び／又は１人若しくはそれ以上の人物のポーズ進展を、注意深くない若しくは安全でない行動に関連する複数のポーズ、例えば、食べている、電話コールしている、モバイルデバイスを見ている、作業車両から目を離している、安全領域内に座っている、タバコを吸っている等々のポーズと比較するよう構成することができる。１つ又はそれ以上のプロセッサは、決定した注意深くない若しくは安全でない行動に基づいて１つ又はそれ以上の安全領域の違反状況を決定するよう構成することができる。例えば、人物が注意深くない若しくは安全でない行動を示している場合、人物は１つ又はそれ以上の安全領域で違反行為をしていると見なすことができる。

追加の画像認識を使用することは、さらに、ポリシー執行のための付加的特徴を推測することも可能にする。提案した概念の様々な実施例において、１人又はそれ以上の人物に加えて、場面における物体を同時に識別することができる。例えば、画像認識及び分類（例えば、分類機械学習モデルを使用する）は、ビデオデータに現れる物体、例えば、１人又はそれ以上の人物が取り扱っているプロセスで自由に置かれた障害物又は物体を識別するのに使用することができる。１つ又はそれ以上のプロセッサは、他の機械学習モデル（さらに、「物体検出機械学習モデル」とも称される）の使用により、１人又はそれ以上の人物が予め規定された複数の物品のうち少なくとも１つを担持しているか否かを検出するよう構成することができる。方法は、１人又はそれ以上の人物が予め規定された複数の品目のうち少なくとも１つを担持しているか否かを検出するステップを備えることができる。例えば、ビデオデータを解析して、安全ヘルメット、高視認性安全ベスト、携帯電話、シャベル又は他の装備品等々を検出することができる。この特徴は、建設現場でのポリシー執行に使用することができる。例えば、建設現場における硬質ハット／ヘルメット、スチールつま先ブーツ、安全ベスト等の使用は強制的であり得る。とくに、上述した身体部分識別と組み合わせて、さらに物体検出機械学習モデル、例えば、ディープネットワークの使用により画像解析することにより、人々が建設現場で必要とされる安全品目、例えば、硬質ハット及び高視認性ベストを着用しているか否かを検出することを可能にする。さらに、人物が携帯電話のような禁止品目を使用している、食べている、飲んでいる等々をしているか否かを検出することができる。したがって、予め規定された複数の品目は、安全ヘルメット（すなわち、「硬質ハット」）、安全ベスト、スチールつま先ブーツのような安全装身具のうち１つ若しくはそれ以上の品目、及び／又は携帯電話、シガレット、個人用バックパックのような、１つ又はそれ以上の禁止品目を含むことができる。１つ又はそれ以上のプロセッサは、さらに、１人又はそれ以上の人物が少なくとも１つの品目を担持しているか否かに基づいて、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう構成することができる。例えば、人物が１つ又はそれ以上の強制安全装身具品目がない、例えば、人物が安全ハット、安全ベスト、又はスチールつま先ブーツを着用していない場合、１つ又はそれ以上の安全領域における違反行為を１人又はそれ以上の人物がしていると見なすことができる。人物が安全装身具の強制品目をすべて着用している場合、１つ又はそれ以上の安全領域における人物の違反状況は無視される。同様に、１人又はそれ以上の人物それぞれが禁止品目を担持していると分かる場合、その人物は１つ又はそれ以上の安全領域における違反行為をしていると見なされ、これは、それぞれの人物が注意深く見える及び／又は安全装身具の強制品を装備している場合であっても、である。

様々な実施例において、提案した概念は、ビデオデータに現れる１人又はそれ以上の人物を識別又は再識別するのに使用されるサブコンポーネントで使用される。このことは、ビデオデータにおける人物の特別に割り当てられた役割に合致するよう安全システムの挙動を変化させる。例えば、現場監督又は作業車両のオペレータは安全領域の内側にいることは許容できるとともに、非熟練労働者は許容されない。例えば、作業車両のオペレータが作業車両の外側で特別「マーシャラー（先導人）」として振る舞う場合、オペレータは、１つ又はそれ以上の安全領域の小区域の内側に位置することを許容され得る。この人物の識別又は再識別は、顔認識若しくはｒｅ-ｉｄ、ＱＲ（Quick Response）コード若しくはその類似物のような画像ベース技術、又は無線ビーコン（例えば、ブルートゥース（登録商標）ビーコン）若しくは能動的視覚ビーコン（例えば、赤外線トランスミッタ／レシーバ）のような他タイプの非画像ベースの識別技術を使用することができる。これに応じて、１つ又はそれ以上のプロセッサは、ビデオデータに現れる１人又はそれ以上の人物を識別又は再識別し、またビデオデータに現れる１人又はそれ以上の人物を識別又は再識別に基づいて、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう構成することができる。換言すれば、違反状況であるか否かは、それぞれの人物の識別に基づいて決定される。この違反状況の決定は、それぞれの人物の識別を条件としてなされ得る。例えば、２人の人物が１つ又はそれ以上の安全領域で並んで立っている場合、一方の人物が１つ又はそれ以上の安全領域で違反状況にあり、他方の人物が違反状況にない場合があり得る。

１人又はそれ以上の人物の識別又は再識別を可能にする様々な概念がある。例えば、１つ又はそれ以上のプロセッサは、ビデオデータにおける顔認識を用いて１人又はそれ以上の人物を識別するよう構成することができる。例えば、機械学習モデル（さらに、「顔認識機械学習モデル」とも称される）は、顔認識の様々な局面を実施するよう訓練することができる。例えば、顔認識機械学習モデルは、ビデオデータで顔検出を実施し、また検出した顔の特徴を抽出するよう訓練することができる。１つ又はそれ以上のプロセッサは、検出した顔の抽出済み特徴を顔認識データベースに記憶した特徴と比較するよう構成することができる。例えば、１つ又はそれ以上の安全領域で許容される人物の特徴は顔認識データベースに記憶することができる。随意的に、１つ又はそれ以上の安全領域で明示的に許容されない人物の特徴も、顔認識データベースに記憶することができる。１つ又はそれ以上の安全領域のうち１つの領域に立っている人物が顔認識データベースで見つかり、かつその人物が１つ又はそれ以上の安全領域で許容されている場合、１つ又はそれ以上の安全領域の違反状況がないことが分かり得る（すなわち、違反状況は無視される）。１つ又はそれ以上の安全領域のうち１つの領域に立っている人物が顔認識データベースで見つかり、かつその人物が１つ又はそれ以上の安全領域で明示的に許容されていない場合、又は人物が顔認識データベースで見つからない場合、違反状況であることを決定することができる。

代替的（又は付加的）に、人物再識別を使用することができる。換言すれば、１つ又はそれ以上のプロセッサは、再識別用に訓練された機械学習モデル（「人物再識別機械学習モデル」とも称される）を用いて１人又はそれ以上の人物を再識別するよう構成することができる。視覚的人物再識別システムは、人物の絶対識別を（通常顔の特徴から）確立しようとする識別システムとは対照的に、人物の外見からのみ区別又は再識別する目的を果たす。この文脈において、用語「人物再識別」は、人物が再識別される、すなわち、前に記録されていた人物が再び記録され、先の記録に合致することを意味する。

様々な実施例において、再識別は、ビデオデータのような視覚的データから生成されるいわゆる再識別コードに基づく。人物の再識別コードは、その人物を表し、また人物の異なる画像に類似すべきものである。人物の再識別コードは、人物の他の再識別コードと比較することができる。第１再識別コードと第２再識別コードとの間で合致が見られる場合（すなわち、再識別コード相互間の相違が閾値より小さい場合）、第１及び第２の再識別コードは同一人物を表すと見なすことができる。再識別を実施するためには、２つのコンポーネント、すなわち、再識別コードを形成するコンポーネント及びこれら再識別コードを評価するコンポーネントを使用して、実際の再識別を実施する。幾つかの実施例において、上述した顔認識は、人物再識別を用いて実現することができる。例えば、顔抽出は、顔認識データベースに記憶した他の再識別コードと比較できる再識別コードを生成することによって実施することができる。

人物の画像に基づいて再識別コードを生成し、また生成したコードを１つ又はそれ以上の記憶デバイスに記憶させることによって再識別システムに人物を追加することができる。人物再識別機械学習モデルは、ビデオデータに現れる各人物に対して対応する再識別コードを出力するよう訓練することができる。１つ又はそれ以上のプロセッサは、再識別機械学習モデルを用いてビデオデータに現れる人物に対して１つ又はそれ以上の再識別コードを生成し、また記憶済み再識別コードを１人又はそれ以上の人物の１つ又はそれ以上の再識別コードと比較するよう構成することができる。合致が見つかる場合、ビデオデータに現れる人物は再識別されることができる。人物が１つ又はそれ以上の安全領域で許容されている、又は１つ又はそれ以上の安全領域で明示的に許容されてないと分かっているか否かに基づいて、違反状況を決定する（又は決定されない）ことができる。ビデオデータに現れる人物が再識別できず、かつその人物が安全領域内に見つかる場合、違反状況を決定することができる。

顔認識及び／又は再識別の代案として、又はそれに対して付加的に、二次的識別子を使用して１人又はそれ以上の人物を識別することができる。例えば、特別マーカーをそれぞれの人物の安全ヘルメットに配置することができる（顔認識の代わりに）。マーカーの補助により、１人又はそれ以上の人物はそのシーンで一意的に識別することができる。このようなマーカーを用いて、特別に指定されたヘルパー要員等は、１つ又はそれ以上の安全領域の幾つかにおいて存在することが許容され得る。

以下の説明において、二次的識別子の２つの汎用タイプ、すなわち、受動的識別子及び能動的ビーコンを紹介する。例えば、１つ又はそれ以上のプロセッサは、ビデオデータにおける１人又はそれ以上の人物が担持する（受動）視覚的識別子を検出することによって、１人又はそれ以上の人物を識別するよう構成することができる。例えば、視覚的識別子は、１つ又はそれ以上の人物のベスト又はヘルメットに配置する、又は１人又はそれ以上の人物におけるバッジの一部分として着用することができる。例えば、受動視覚的識別子は、クイックレスポンス（QＲ）コード又は他の2次元視覚コードのようなコンピュータ可読コードとして示すことができる。１つ又はそれ以上のプロセッサは、ビデオデータにおける視覚的識別子を検出し、また検出した視覚的識別子に基づいて１人又はそれ以上の人物を識別するよう構成することができる。例えば、人物の身元及び／又は承認はその人物の視覚的識別子としてコード化することができる。代案として、視覚的識別子は、データベースで検索する（１つ又はそれ以上のプロセッサによって）ことができるコードを生ずることができる。

代替的又は付加的に、能動的ビーコンを使用して１人又はそれ以上の人物を識別することができる。例えば、１つ又はそれ以上のプロセッサは、１人又はそれ以上の人物が担持する能動的無線ビーコン（例えば、ブルートゥースビーコン）又は能動的視覚ビーコン（例えば、能動的赤外線トランスミッタ）のような能動的視覚ビーコンを検出することによって、１人又はそれ以上の人物を識別するよう構成することができる。例えば、１つ又はそれ以上のプロセッサは、ビデオデータにおける能動的視覚ビーコンの発生を検出する、又は能動的視覚ビーコンを検出するための赤外線センサのような視覚センサを使用するよう構成することができる。同様に、１つ又はそれ以上のプロセッサは、少なくとも１つのインタフェースを介して接続し得る無線レシーバを使用して、能動的無線ビーコンの送信を検出するよう構成することができる。例えば、人物の身元及び／又は承認は、能動的ビーコン、例えば、能動的視覚ビーコン若しくは能動的無線ビーコンによって送信されるコードとしてコード化することができる、又は能動的ビーコンは、ブルートゥースビーコンの場合、データベースで検索する（１つ又はそれ以上のプロセッサによって）ことができるメディア・アクセス制御コードのようなコードを生ずることができる。

様々な実施例において、１つ又はそれ以上のプロセッサは、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号を、例えば、インタフェースを介して出力デバイスに供給するよう構成される。例えば、図１ｂにつき概略を示したように、出力デバイスは、ディスプレイ１０８ａ、キャビンに音声を出力するスピーカー１０８ｂ、又は作業車両の外部に音声を出力するスピーカー１０８ｃとすることができる。したがって、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号は、ディスプレイ信号及び／又は音声信号を含むことができる。代案として、出力デバイスは、無線接続を介して作業車両に接続することができる携帯デバイス２０とすることができる。このケースにおいて、音声信号及び／又はディスプレイ信号も使用することができる。

例えば、図４ａ～４ｂにつき示すように、１つ又はそれ以上のプロセッサは、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号は、１つ又はそれ以上の安全領域に対する１人又はそれ以上の人物の視覚表示を構成するディスプレイ信号を有することができる。図４ａ及び４ｂに示すように、１つ又はそれ以上の安全領域のアウトライン４００及び検出された１人又はそれ以上の人物のアウトライン４１０は、１つ又はそれ以上の安全領域に対する１人又はそれ以上の人物の視覚表示の一部として示すことができる。例えば、ビデオデータは、１つ又はそれ以上のカメラ各々による統合ビュー若しくは個別ビューとしてオペレータが視覚化する又はしないようにすることができる。したがって、アウトラインは、視覚表示でビデオデータ上にオーバーレイすることができる、又は１人又はそれ以上の人物及び１つ又はそれ以上の安全領域の抽象表現を示すことができる。図４ａ～４ｃにつき説明したように、１つ又はそれ以上のプロセッサは、違反状況が決定されているか否かに係わらず、１つ又はそれ以上の安全領域で違反を犯している人物は、１つ又はそれ以上の安全領域で違反を犯していない人物のディスプレイ信号（例えば、図４ａにつき言及したような緑色）とは異なる色彩（例えば、図４ｂにつき言及したような赤色）でハイライトされているディスプレイ信号を生成するよう構成することができる。このディスプレイ信号は、作業車両のディスプレイ、例えば、ディスプレイ１０８ａ、又は作業車両のユーザーにおけるディスプレイ、例えば、携帯デバイス２０のディスプレイに供給することができる。

付加的又は代替的に、音声警報信号は、作業車両のオペレータ及び／又は１人又はそれ以上の人物に対して供給することができる。例えば、１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を表す少なくとも１つの信号は、音声警報信号を含むことができる。例えば、音声信号は、作業車両のキャビン１０４内に配置したスピーカー１０８ｂ、作業車両の外部の１人又はそれ以上の人物に警報を与えるのに適したスピーカー１０８ｃ、又は携帯デバイス２０に供給することができる（図１ｂに示すように）。

幾つかの実施例において、１つ又はそれ以上のプロセッサは、車両に基づいて車両を制御する、例えば、危険が差し迫っている場合、「自動ブレーキ」又は自動停止を可能にするよう構成することができる。換言すれば、１つ又はそれ以上のプロセッサは、違反状況が検出される場合、作業車両の進行を停止させるよう構成することができる。

先に紹介した実施例において、ポーズ推定が最初に使用されて、安全領域における人物の違反状況を決定する。本開示の第２態様によれば、このポーズ推定の機能性は、例えば、１つ又はそれ以上の安全領域における違反状況検出に加えて、作業車両を制御するのに使用することができる。例えば、特定身体ポーズは、車両の挙動を制御するため、車両外部にいる人が使用することができる。したがって、１つ又はそれ以上のプロセッサは、人物のポーズ情報に基づいて少なくとも１つの予め規定したポーズを検出し、また検出された予め規定したポーズに基づいて作業車両を制御するよう構成することができる。このケースにおいて、作業車両のオペレータは、作業車両の外部に立ち、また外部から作業車両を制御することができる。

例えば、航空機のマーシャラー（離着陸先導人）が滑走路上で使用するシステムに類似する信号システムを適用することができる。このケースにおいて、作業車両のオペレータは作業車両の「マーシャラー」であり得る。マーシャラーのように、オペレータは作業車両の１つ又はそれ以上の安全領域内部にいることが許容され得る。したがって、１つ又はそれ以上の安全領域におけるオペレータの違反状況は無視することができる（すなわち、違反状況は検出されないことがある）。しかし、作業車両は権限付与済み人員によってのみ制御されることが確実になるよう慎重であることができる。

様々な実施例において、作業車両の制御は、例えば、作業車両の間違った又は有害な引継ぎを回避するのに制限することができる。したがって、提案した概念は、作業車両の制御に対する人物の権限付与を決定するコンポーネントを含むことができる。例えば、作業車両を制御する任務を負う人物は、任意なコマンドを実施するよう作業車両に命令する権限が与えられるとともに、他の人物は権限を持たない、又は作業車両（又は作業車両のエンジン）を停止させる権限のみを有し、作業車両を移動させるよう命令する権限を持たないようにすることができる。換言すれば、１つ又はそれ以上のプロセッサは、人物の権限レベルを決定し、また人物が作業車両を制御するに十分な権限を有する場合、作業車両を制御するよう構成することができる。例えば、権限レベルに基づいて、１つ又はそれ以上のプロセッサは任意なコマンドを発生するとともに、他のコマンドはブロックするようにすることができる。換言すれば、異なるレベルの権限は、異なるコマンドを発生することを可能にする。

作業車両の制御を制限するため、２つの一般的な手法を選択することができる。その１つめとしては、ビデオデータに現れる人物を識別又は再識別することができ、また識別又は再識別されている人物が作業車両を制御する権限を付与されている、例えば、その人物が作業車両のオペレータ又は「マーシャラー」として登録されているとき、作業車両を制御できるようにすることである。したがって、１つ又はそれ以上のプロセッサは、人物を識別又は再識別し、また人物の識別又は再識別に基づいて、例えば、その人物が作業車両を制御する権限を付与されていると識別又は再識別される場合、作業車両を制御するよう構成することができる。例えば、１つ又はそれ以上のプロセッサは、人物の識別又は再識別に基づいて、人物の権限レベルを決定するよう構成することができる。例えば、１つ又はそれ以上のプロセッサは、人物の識別又は再識別に基づいて、データベースにおける人物の権限レベルを参照するよう構成することができる。

2つめとして、車両を制御する権限を付与されている人物に占有的である特別な装備を人物が担持できるようにすることである。例えば、上述したのと同様に、１つ又はそれ以上のプロセッサは、人物が（携帯式）信号伝達ビーコン及び／又は安全ベストのような予め規定された品目を担持しているか否かを検出し、またその人物が予め規定された品目を担持している場合（のみ）、作業車両を制御するよう構成することができる。例えば、（携帯式）安全ビーコン及び安全ベストのうち１つ又は２つを担持している人物のみが作業車両を制御する権限を付与されるようにすることができる。上述したように、信号伝達ビーコンは、着用者が作業車両（例えば、車両の任意なコマンド）を制御する権限を付与されていることを明らかにする。このケースにおいて、ポーズ推定は、信号伝達ビーコンを担持している人物向けに仕立てることができる。換言すれば、機械学習モデルは、ビデオデータに基づいて少なくとも１つの信号ビーコンを担持する人物のポーズ推定データを生成するよう訓練することができる。例えば、信号伝達ビーコンは、ポーズ推定スケルトンの他の肢として見ることができる。

安全ベストは、着用者がコマンドのサブセットを実施する、例えば、作業車両を停止させる又は作業車両のエンジンを停止させる権限を明らかにすることができる。しかし、視覚的識別子又は能動ビーコンのような他の外部識別子を使用して、外部識別子を着用又は担持している人物の権限レベルを決定することができる。換言すれば、１つ又はそれ以上のプロセッサは、人物によって担持又は着用される外部識別子に基づいて人物の権限レベルを決定するよう構成することができる。

作業車両を制御するのに使用できる様々なポーズ及び信号の可能性がある。例えば、腕を伸ばしかつ手のひらをカメラに向ける信号（図５ａに示す）は、車両をそれ以上人物に向かって移動しないよう停止させる命令として解することができる。同様に、腕を体の前で交差させること（図５ｂに示すように）は緊急時でマシンを全体的に停止することができる。より細かい作業車両制御用に、航空機マーシャラーが使用するのと同様の視覚的身体動作信号を使用することができる。

提案した概念の安全性を向上させるため、曖昧さを排除することができる。このことは、あり得るポーズの固定セット、及びそのセットにおける１つのポーズに各々関連する制御命令の固定セットを持つことによって行うことができる。換言すれば、１つ又はそれ以上のプロセッサは、複数の予め規定されたポーズ（すなわち、ポーズの固定セット）のうち少なくとも１つを検出するよう構成することができる。この結果として、方法は、人物のポーズ情報に基づいて少なくとも１つの予め規定されたポーズを検出するステップ１３０を備える。複数の予め規定されたポーズのうち各ポーズは、作業車両を制御する特定制御命令に関連するようにすることができる。換言すれば、複数の予め規定されたポーズにおけるポーズと、対応する制御命令との間に１対１の相互関係があり得る。１つ又はそれ以上のプロセッサは、検出されたポーズに関連する制御命令に基づいて作業車両を制御するよう構成することができる。この結果として、方法は、検出した少なくとも１つの予め規定されたポーズに基づいて作業車両を制御するステップ１９０を備えることができる。換言すれば、複数の予め規定されたポーズにおけるポーズが検出されるとき、関連する制御命令を使用して作業車両を制御することができる。例えば、１つ又はそれ以上のプロセッサは、検出したポーズに基づいて、例えば、検出したポーズに関連する制御命令に基づいて作業車両を制御する制御信号を生成するよう構成することができる。

上述したように、ポーズ推定データは、複数の関節及び複数の肢より成るいわゆるポーズ推定スケルトンを含むことができる。複数の予め規定されたポーズの各々は、結果としてスケルトンにおける幾つかの肢間に特定角度を生ずることができる。例えば、右上腕と右下腕との間における６０°～１２０°の角度は、図５ａに示すポーズを表すことができる。複数の予め規定されたポーズそれぞれの特徴的角度はデータベースに記憶することができる。１つ又はそれ以上のプロセッサは、ポーズ推定機械学習モデルが生成するポーズ推定スケルトンの角度を、データベースに記憶された複数の予め規定されたポーズの特徴的角度と比較し、またこの比較に基づいて少なくとも１つの予め規定されたポーズを検出するよう構成することができる。代案として、機械学習モデルを使用して、複数の予め規定されたポーズのうち少なくとも１つの予め規定されたポーズを検出することができる。

先に概略を示したように、ポーズ推定機械学習モデルの使用により静的ポーズを識別するだけでなく、ポーズの進展も決定することができる。例えば、ポーズの進展を使用して、移動の要素を含まない静的ポーズとは対照的に、経時的移動、いわゆる信号ポーズを構成するポーズを識別することができる。換言すれば、複数の予め規定したポーズは、１つ又はそれ以上の静的ポーズ及び１つ又はそれ以上の信号ポーズを含み、１つ又はそれ以上の信号ポーズは、第１ポーズから第２ポーズへの移行に基づく。１つ又はそれ以上のプロセッサは、ポーズの進展に関する情報に基づいて少なくとも１つの予め規定されたポーズを検出するよう構成することができる。したがって、１つ又はそれ以上のプロセッサは、ポーズの進展情報に基づいて少なくとも１つの予め規定された信号ポーズを検出するよう構成することができる。例えば、少なくとも１つの予め規定された信号ポーズが第１ポーズから第２ポーズへの移行に基づくとき、少なくとも１つの予め規定された信号ポーズは、ポーズの角度を、データベースに記憶された第１ポーズ及び第２ポーズの特徴的角度と比較することによって検出することができる。

図５ａ～５ｈにつき説明すると、ポーズ及び関連の制御命令の様々な実施例を列挙する。図５ａ～５ｈは、静的ポーズ又は信号ポーズにおける実施例の概略図を示す。例えば、図５ａに示すように、複数の予め規定されたポーズは、作業車両の移動を停止させる制御命令に関連する静的ポーズを含むことができる。上述したように、図５ａは作業車両に向かって右手を上げるマーシャラーを示す。この結果として、右上腕と右下腕との間における６０°～１２０°の角度は、図５ａに示すポーズ、すなわち、作業車両の移動を停止させる制御命令に関連する静的ポーズを表すことができる。

例えば、図５ｂに示すように、複数の予め規定されたポーズは、作業車両のエンジンを停止させる制御命令に関連する静的ポーズを含むことができる。図５ｂにおいて、マーシャラーの腕は身体の前で交差させ、マーシャラーの「肩肢（shoulder limb）」と上腕との間における約－４５°の特徴的角度となるようにする。

図５ｃに示すように、複数の予め規定したポーズは、作業車両のエンジンを始動させる制御命令に関連する静的ポーズを含むことができる。例えば、静的ポーズのこの実施例においては、マーシャラーの腕はフロアに向けて斜め外方に伸ばし、作業車両のエンジンを始動させる制御命令に関連する。

図５ｄ～５ｇにおいて、数個の信号ポーズを示す。例えば、複数の予め規定されたポーズは、作業車両の操舵角度を左に調整させる制御命令に関連する信号ポーズ（図５ｄ）及び／又は作業車両の操舵角度を右に調整させる制御命令に関連する信号ポーズ（図５ｅ）を含むことができる。図５ｄに示すように、作業車両の操舵角度を左に調整させる制御命令に関連する信号ポーズは、右腕を外方に真直ぐ伸ばして、左腕を空に向けて斜め外方に伸ばす第１ポーズと、及び右腕を外方に真直ぐ伸ばしたままにし、左腕を空に向けて斜め内方に伸ばす第２ポーズとに基づくものとすることができる。作業車両の操舵角度を右に調整させる対応の信号ポーズは、腕の役割を逆にしたものとすることができる。

例えば、複数の予め規定されたポーズは、作業車両を後進させるよう制御する制御命令に関連する信号ポーズ（図５ｆ）、及び作業車両を後進させるよう制御する制御命令に関連する信号ポーズ（図５ｇ）を含むことができる。図５ｇに示すように、作業車両を後進させるよう制御する制御命令に関連する信号ポーズは、右下腕が右上腕に対して７５°～１０５°の角度になる第１ポーズと、右下腕を前方に傾いて、この結果として、右上腕に対して１１５°～１５０°の角度になる第２ポーズとを含むことができる。図５ｆにおいては、右下腕を前方に傾ける代わりに、右下腕を後方に傾ける。

図５ｈにおいて、２つの信号伝達ビーコンを用いて実行する信号ポーズを示す。先に概略を示したように、ポーズ推定機械学習モデルは、１つ又は２つの信号伝達ビーコンを担持する人物のためのポーズ推定データを出力するよう訓練することができる。このケースにおいて、信号伝達ビーコンは、ポーズ推定スケルトンの追加的な肢として処理することができる。

本開示における少なくとも幾つかの実施例は、機械学習モデル又は機械学習アルゴリズムを使用することに基づく。機械学習は、コンピュータシステムを使用して明示的命令を使用することなく、その代わりにモデル及び推論に頼って特定タスクを実施することができるアルゴリズム及び統計学的モデルに言及する。例えば、ルールベースのデータ変換の代わりに機械学習においては、履歴データ及び／又は訓練データの解析から推測されるデータ変換を使用することができる。例えば、画像の内容は、機械学習モデルを用いて又は機械学習アルゴリズムを用いて解析することができる。画像内容を解析する機械学習モデルのために、機械学習モデルは、入力として訓練画像を、また出力として訓練内容情報を用いて訓練することができる。機械学習モデルを多数の訓練画像及び関連する訓練内容情報で訓練することによって、機械学習モデルは、画像内容を認識することの「学習」をし、これにより、訓練画像に含まれていない画像の内容を機械学習モデルの使用により認識することができる。同一の原理は他の種類のセンサデータにも使用することができる。訓練センサデータ及び所望出力を使用して機械学習モデルを訓練することによって、機械学習モデルは、センサデータと出力との間における変換を「学習」し、この学習は、機械学習モデルに供給される非訓練センサデータに基づく出力を供給するのに使用することができる。

機械学習モデルは、訓練入力データの使用により訓練される。先に特定した実施例は、「教師あり学習、監視下学習（supervised learning）」と称される訓練方法を使用する。監視下学習において、機械学習モデルは、複数の訓練サンプルを使用して訓練され、この場合、各サンプルは、複数の入力データ値、及び複数の所望出力値を含む、すなわち、各訓練サンプルは所望出力値に関連する。訓練サンプル及び所望出力値の双方を特定することによって、機械学習モデルは、訓練中に供給されるサンプルに類似する入力サンプルに基づいてどの出力値を供給するかを「学習」する。監視下学習は別として、半監視下学習を使用することができる。この半監視下学習においては、幾つかの訓練サンプルは対応する所望出力値を欠いている。監視下学習は、監視下学習アルゴリズム、例えば、分類アルゴリズム、回帰アルゴリズム又は類似性学習アルゴリズムに基づくものとすることができる。分類アルゴリズムは、出力が値の限定セットに限られている、すなわち、入力が値の限定セットにおける１つの値に分類されているときに使用することができる。回帰アルゴリズムは、出力が任意な数値（或る範囲内における）を有するときに使用することができる。類似性学習アルゴリズムは分類アルゴリズム及び回帰アルゴリズムの双方に類似するが、２つの物体がどのくらい類似又は関連しているかを評価する相似関数を用いて、サンプルから学習することに基づく。

監視下学習又は半監視下学習は別として、非監視下学習を使用して機械学習モデルを訓練することができる。非監視下学習において、入力データ（のみ）が供給され、また入力データの構造を見つける、例えば、入力データをグループ化又はクラスタ化し、データにおける共通性を見つけるのに非監視下学習アルゴリズムを使用することができる。クラスタ化は、複数の入力値を含む入力データを部分集合（クラスタ）に割り当てることであり、これにより同一クラスタ内における入力値は、１つ又はそれ以上の（予め規定された）類似性基準に従って類似するとともに、他のクラスタに含まれる入力値とは類似しない。

強化学習は機械学習アルゴリズムの第３グループである。換言すれば、強化学習は、機械学習モデルを訓練するのに使用することができる。強化学習において、環境内で行動を取る１つ又はそれ以上のソフトウェア・アクター（いわゆる「ソフトウェア・エージェント」）を訓練する。取られる行動に基づいて、報酬が計算される。強化学習は、行動を選択する１つ又はそれ以上のソフトウェア・エージェントを訓練することに基づき、これにより累積する報酬が増大し、与えられるタスクに対してより良好な（増大する報酬が証拠となる）ソフトウェア・エージェントに至る。

先に紹介した様々な実施例において、種々の機械学習モデル、例えば、ポーズ推定機械学習モデル、ビデオデータに現れる複数人物のポーズ推定データをセグメント化するのに使用される機械学習モデル、物体検出機械学習モデル、顔認識機械学習モデル、又は人物再識別機械学習モデルが使用されている。例えば、これら機械学習モデルは、以下に示すような種々の技術を使用して訓練することができる。

例えば、ポーズ推定機械学習モデルは監視下学習を使用して訓練することができる。例えば、訓練及び対応するポーズ推定データの訓練サンプルとしてビデオデータを使用することができ、２次元又は３次元座標系におけるポーズ推定スケルトンのポイントは、所望出力として使用することができる。代案として、強化学習を報酬関数とともに使用し、この報酬関数は、訓練に使用されているビデオデータに現れる実際のポーズから生成されたポーズ推定データの偏差を最小化することを探し求める。

例えば、ビデオデータに現れる複数人物のポーズ推定データをセグメント化するのに使用される機械学習モデルは、セグメント化がクラスタ化を用いて実施できるとき、非監視下学習を用いて訓練することができる。代案として、訓練サンプルとして使用されている複数人物を示すビデオデータ、及び所望出力として使用されている対応するセグメント化済みポーズ推定データとともに、監視下学習を使用することができる。

物体検出機械学習モデルは、訓練サンプルとして検出すべき物体を含む画像、及び訓練の所望出力として検出すべき物体の位置を供給することによって、監視下学習を用いて訓練することができる。

顔認識に使用される機械学習モデルも、例えば、ビデオデータ内における顔を検出し、また訓練サンプルとしてビデオデータのフレームが供給され、また所望訓練出力として境界ボックスの対応する位置が供給されて、矩形境界ボックスのために使用すべき対応する位置を出力するよう機械学習モデルを訓練することによって、監視下学習を用いて訓練することができる。特徴抽出は分類問題であり、したがって、分類アルゴリズムを適用することができる。代案として、先に概略を示したように、顔認識は、人物再識別機械学習モデルを用いて実施することができる。

人物再識別機械学習モデルは、例えば、トリプレットロス（triplet-loss）・ベースの訓練を用いて訓練することができる。トリプレットロスにおいて、ベースライン入力が正の入力及び負の入力と比較される。人物再識別機械学習モデルを訓練するのに使用されている各入力セットに対して、同一人物を示す２つのサンプルはベースライン入力及び正の入力として使用することができ、また異なる人物からのサンプルは、トリプレットロス・ベースの訓練における負の入力として使用することができる。しかし、人物再識別機械学習モデルの訓練は、代案として、他の監視下学習、非監視下学習、又は強化学習のアルゴリズムに基づくものとすることができる。イェ氏らの非特許文献（「Deep Learning for Person Re-identification: A Survey and Outlook」(2020)）は、機械学習ベースの再識別システムの実施例を、対応する訓練方法論とともに提示している。

機械学習アルゴリズムは、通常機械学習モデルに基づく。換言すれば、用語「機械学習アルゴリズム（machine-learning algorithm）」は、機械学習モデルを創成、訓練又は使用するのに使用し得る命令セットを意味することができる。用語「機械学習モデル（machine-learning model）」は、例えば、機械学習アルゴリズムが実施する訓練に基づいて学習した知識を表すデータ構造及び／又はルールセットを意味する。実施形態において、機械学習アルゴリズムの用法は、下層にある機械学習モデル（又は複数の下層にある機械学習モデル）の用法を含意し得る。機械学習モデルの用法は、機械学習モデル及び／又は機械学習モデルである。データ構造及び／又はルールセットが機械学習アルゴリズムによって訓練されることを含意し得る。

例えば、機械学習モデルは人工ニューラル・ネットワーク（ＡＮＮ）とすることができる。ＡＮＮは、例えば、脳内で見つかる生物学的神経回路網によってインスパイアされたシステムである。ＡＮＮは、複数の相互連結されたノードと、ノード間におけるいわゆるエッジと称される複数の接続部より成る。通常３タイプのノード、すなわち、入力値を受け取る入力ノード、他のノードに接続されるのみである隠れノード、及び出力値を供給する出力ノードがある。各ノードは人工ニューロンを表すことができる。各エッジは１つのノードから他のノードに情報を伝達することができる。ノードの出力は入力合計の（非線形）関数として定義することができる。ノードの入力は、エッジ又は入力を供給するノードにおける「重み」に基づく関数で使用することができる。ノード及び／又はエッジの重みは、学習プロセスで調整することができる。換言すれば、人工ニューラル・ネットワークの訓練は、人工ニューラル・ネットワークのノード及び／又はエッジにおける重みを調整する、すなわち、所与の入力に対して所望出力を得るステップを含むことができる。少なくとも幾つかの実施形態において、機械学習モデルは、ディープ・ニューラル・ネットワーク、例えば、１つ又はそれ以上の隠れノードのレイヤ（すなわち、隠れレイヤ）、好適には、複数の隠れノードレイヤを含むニューラル・ネットワークとすることができる。

代案として、機械学習モデルはサポートベクターマシンとすることができる。サポートベクターマシン（すなわち、サポートベクター・ネットワーク）は、例えば、分類解析又は回帰分析において、データ解析するのに使用され得る関連の学習アルゴリズムを有する監視下学習である。サポートベクターマシンは、２つのカテゴリーのうち一方に属する複数の訓練入力値を入力に供給することによって訓練することができる。サポートベクターマシンは、２つのカテゴリーのうち一方に新たな入力値を割り当てるよう訓練することができる。代案として、機械学習モデルは、確率論的有向非巡回グラフィカルモデルであるベイジアン・ネットワークとすることができる。ベイジアン・ネットワークは、有向非巡回グラフを用いて、ランダム変数及びそれらの条件的従属関係のセットを表すことができる。代案として、機械学習モデルは、自然選択のプロセスを擬する探索アルゴリズム及び発見的技術である一般的アルゴリズムに基づくものとすることができる。

図１ａにつき紹介された少なくとも１つのインタフェース１２は、モジュール内、モジュール相互間、若しくは異なる実体におけるモジュール間で特定コードに従うデジタル（ビット）値であり得る情報を受信及び／又は送信するための１つ又はそれ以上の入力及び／又は出力に対応する。例えば、少なくとも１つのインタフェース１２は、情報を受信及び／又は送信するよう構成されたインタフェース回路を有する。例えば、図１ａにつき紹介された１つ又はそれ以上のプロセッサ１４は、１つ又はそれ以上の処理ユニット、１つ又はそれ以上の処理デバイス、プロセッサ、コンピュータ又は相応的に適用されたソフトウェアで動作可能なプログラム可能ソアコンポーネントのような任意な処理手段を用いて実現することができる。換言すれば、１つ又はそれ以上のプロセッサ１４の説明した機能はソフトウェアとして実現することができ、このソフトウェアは、次に１つ又はそれ以上のプログラム可能ハードウェアコンポーネント上で実行される。このようなハードウェアコンポーネントは、汎用プロセッサ、デジタル信号プロセッサ（ＤＳＰ）、マイクロコントローラ、等々を有することができる。幾つか実施例において、１つ又はそれ以上のプロセッサは、フィールド-プログラム可能・ゲート・アレイ（ＦＰＧＡ）のような１つ又はそれ以上の再構成可能なハードウェア素子とすることができる又は有することができる。例えば、図１ａにつき紹介された１つ又はそれ以上の記憶装置１６は、磁気若しくは光記憶媒体、例えば、ハードディスク、フラッシュメモリ、フロッピーディスク、ランダム・アクセス・メモリ（ＲＡＭ）、プログラム可能リード・オンリー・メモリ（ＰＲＯＭ）、イレーサブル・プログラム可能リード・オンリー・メモリ（ＥＰＲＯＭ）、電気的イレーサブル・プログラム可能リード・オンリー・メモリ（ＥＥＰＲＯＭ）、又はネットワークストレージのようなコンピュータ可読記憶媒体のグループにおける少なくとも１つの素子を有することができる。

様々な実施例における特定の１つに関して説明した態様及び特徴は、１つ又はそれ以上の他の実施例と組み合わせて、その他の実施例における同一若しくは類似の特徴と置換する、又は特徴を付加的に他の実施例に導入することができる。

実施例は、さらに、プログラムコードを含む（コンピュータ）プログラムとすることができる、又はそれに関するものとすることができ、該プログラムをコンピュータ、プロセッサ若しくは他のプログラム可能ハードウェアコンポーネント上で実行するとき上述した方法における１つ又はそれ以上を実行する。したがって、上述した方法のうち異なる方法におけるステップ、動作又はプロセスも、プログラムされたコンピュータ、プロセッサ、若しくは他のプログラム可能ハードウェアコンポーネントによって実行することができる。実施例は、さらに、マシン-、プロセッサ-、コンピュータ-可読であり、並びにマシン-実行可能、プロセッサ-実行可能、若しくはコンピュータ-実行可能なプログラム及び命令をコード化及び／又は含む、デジタルデータ記憶媒体のようなプログラム記憶装置をカバーすることもできる。プログラム記憶装置は、例えば、デジタル記憶装置、磁気ディスク及び磁気テープのような磁気記憶媒体、ハードディスクドライブ、若しくは光可読デジタルデータ記憶媒体を含む、又はそれらとすることができる。他の実施例としては、さらに、コンピュータ、プロセッサ、制御ユニット、（フィールド）プログラム可能論理アレイ、（フィールド）プログラム可能・ゲート・アレイ（(F)ＰＧＡｓ）、グラフィック・プロセッサ・ユニット（ＧＰＵ）、特定用途向け集積回路（ＡＳＩＣｓ）、集積回路（ＩＣｓ）、上述した方法のステップを実行するようプログラムしたシステム-オン-ア-チップ（ＳｏＣｓ）システムがあり得る。

さらに、明細書又は特許請求の範囲で説明した幾つかのステップ、プロセス、動作又は機能の開示は、個々のケースで明示しない限り又は技術的理由で必要でない限り、これら動作が必ず説明した順序に基づくことを含意すると解すべきでないと理解されたい。したがって、上述した説明は、幾つかのステップ又は機能を所定順序で実行することに限定しない。さらにまた、他の実施例においては、単一のステップ、機能、プロセス、若しくは動作は、幾つかのサブ-ステップ、サブ-機能、サブ-プロセス、若しくはサブ-動作を含む、及び／又はそれらに分割することができる。

幾つかの態様を装置又はシステムに関して説明してきた場合、これら態様は、対応する方法の説明としても理解すべきでもある。例えば、デバイス又はシステムのブロック、デバイス若しくは機能の態様は、対応する方法の方法ステップのような特徴に対応し得る。したがって、方法に関して説明した態様は、対応するブロック、対応する要素、対応する装置若しくは対応するシステムにおける特性若しくは機能的特徴の説明として理解すべきである。

特許請求の範囲は詳細な説明に組み入れられ、特許請求の範囲の各請求項は個別の実施例としてそれ自体で立脚することができる。特許請求の範囲における従属項は、１つ又はそれ以上の請求項との特別な組合せに言及することができるが、他の実施例は、さらに、従属項における任意な他の従属項又は独立項の要旨との組合せを含むこともできる。このような組合せは、個別のケースで特別な組合せを意図しないと記述しない限り、明示的に提案されるものである。さらにまた、請求項の特徴は、その請求項が他の独立項に従属すると直接定義されない場合でも、任意な他の独立項に含まれるべきである。

Claims

作業車両（１００；３００；３１０）のための装置（１０）において、
前記作業車両における１つ又はそれ以上のカメラ（１０２）からビデオデータを取得する少なくとも１つのインタフェース（１２）と、
１つ又はそれ以上のプロセッサ（１４）であって、
１人又はそれ以上の人物を識別し、
前記ビデオデータに現れる１人又はそれ以上の人物の識別に基づいて、前記作業車両を取り巻く１つ又はそれ以上の安全領域（４００）における前記１人又はそれ以上の人物（４１０）の違反状況を決定し、
前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の行動における前記違反状況を表す少なくとも１つの信号を出力デバイスに供給する
よう構成されている、前記１つ又はそれ以上のプロセッサ（１４）と、
を備え、
前記１つ又はそれ以上のプロセッサは、機械学習モデルの使用により前記ビデオデータを処理して、前記ビデオデータに現れる１人又はそれ以上の人物のポーズ情報を決定するよう構成され、前記機械学習モデルは、前記ビデオデータに基づいてポーズ推定データを生成し、また前記ビデオデータに現れる１人又はそれ以上の人物のポーズ情報に基づいて前記１つ又はそれ以上の安全領域における１人又はそれ以上の人物の違反状況を決定するよう訓練されており、
前記機械学習モデルは、前記ビデオデータの複数のフレームの経緯にわたり示される経時的な前記１人又はそれ以上の人物におけるポーズの進展に関する情報とともに前記ポーズ情報を出力するよう訓練され、
前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物における経時的な前記ポーズの前記進展に基づいて前記１人又はそれ以上の人物の予測される行動に関する情報を決定し、また前記１人又はそれ以上の人物の予測される行動に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するよう構成されている、装置。
請求項１記載の装置において、前記１つ又はそれ以上のプロセッサは、
前記１人又はそれ以上の人物を識別した後に、前記１人又はそれ以上の人物を記録し、人物が先の記録に合致する場合に、前記１人又はそれ以上の人物のいずれかを再識別するよう構成されている、装置。
請求項２に記載の装置において、前記１つ又はそれ以上のプロセッサは、前記ビデオデータにおける顔認識の使用により１人又はそれ以上の人物を識別するよう構成されている、又は前記１つ又はそれ以上のプロセッサは、人物再識別のために訓練される機械学習モデルの使用により、１人又はそれ以上の人物を再識別するよう構成されている、装置。
請求項１記載の装置において、前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物のポーズに基づいて前記１人又はそれ以上の人物の周りに１つ又はそれ以上の多角形境界領域を生成し、また前記生成した１つ又はそれ以上の多角形境界領域に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物のポーズの違反状況を決定するよう構成されている、装置。
請求項１又は４のうちいずれか１項記載の装置において、前記１つ又はそれ以上のプロセッサは、経時的な前記１人又はそれ以上の人物におけるポーズの進展に基づいて、前記１人又はそれ以上の人物における不注意な又は安全でない行動を決定し、また前記決定した不注意な又は安全でない行動に基づいて、前記１つ又はそれ以上の安全領域における違反状況を決定するよう構成されている、装置。
請求項４又は５のうちいずれか１項記載の装置において、前記１つ又はそれ以上のプロセッサは、前記１人又はそれ以上の人物におけるポーズの進展に基づいて、前記１つ又はそれ以上の安全領域に対する前記１人又はそれ以上の人物の経路を推定し、また前記１人又はそれ以上の人物の前記推定した経路に基づいて、前記１つ又はそれ以上の安全領域における違反状況を決定するよう構成されている、装置。
請求項１～６のうちいずれか１項記載の装置において、前記１つ又はそれ以上のプロセッサは、機械学習モデルを使用して、前記１人又はそれ以上の人物が複数の予め規定された品目のうち少なくとも１つを担持しているか否かを決定するよう構成され、前記機械学習モデルは、前記ビデオデータにおける前記複数の予め規定された品目であって、安全装身具のうち１つ又はそれ以上の品目、及び／又は１つ又はそれ以上の禁止品目を含む、該複数の予め規定された品目を検出し、またさらに、前記１人又はそれ以上の人物が前記少なくとも１つの品目を担持しているか否かに基づいて、前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するよう訓練されている、装置。
請求項１～７のうちいずれか１項記載の装置において、前記１つ又はそれ以上のプロセッサは、前記作業車両の未来経路を決定し、また前記作業車両の前記未来経路に基づいて前記１つ又はそれ以上の安全領域の範囲を決定するよう構成されている、装置。
請求項１～８のうちいずれか１項記載の装置において、前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を表す前記少なくとも１つの信号は、ディスプレイ信号及び／又は音声信号を有する、装置。
作業車両（１００；３００；３１０）であって、請求項１～９のうちいずれか１項記載の装置（１０）及び１つ又はそれ以上のカメラ（１０２）を備える、作業車両。
請求項１０記載の作業車両において、前記１つ又はそれ以上のカメラは、前記作業車両のキャビン（１０４）の頂部に配置される、又は前記１つ又はそれ以上のカメラは、前記作業車両のキャビン（１０４）の頂部から突出しているプラットフォーム（１０６）に配置される、作業車両。
作業車両のための方法であって、
前記作業車両における１つ又はそれ以上のカメラからビデオデータを取得するステップ（１１０）と、
前記ビデオデータにおける１人又はそれ以上の人物を識別するステップ（１６０）と、
前記ビデオデータに現れる１人又はそれ以上の人物の識別に基づいて、前記作業車両を取り巻く１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するステップ（１７０）と、
前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の行動に関する違反状況を表す少なくとも１つの信号を出力デバイスに供給するステップ（１８０）と、、
機械学習モデルの使用により前記ビデオデータを処理して、前記ビデオデータに現れる１人又はそれ以上の人物のポーズ情報を決定するステップと、
前記１人又はそれ以上の人物における経時的なポーズの進展に基づいて前記１人又はそれ以上の人物の予測される行動に関する情報を決定し、また前記１人又はそれ以上の人物の予測される行動に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するステップと、
を含み、
前記機械学習モデルは、前記ビデオデータに基づいてポーズ推定データを生成し、また前記ビデオデータに現れる前記１人又はそれ以上の人物のポーズ情報に基づいて前記１つ又はそれ以上の安全領域における前記１人又はそれ以上の人物の違反状況を決定するよう訓練されており、
前記機械学習モデルは、前記ビデオデータの複数のフレームの経緯にわたり示される経時的な前記１人又はそれ以上の人物におけるポーズの進展に関する情報とともに前記ポーズ情報を出力するよう訓練される、方法。
請求項１２記載の方法であって、前記１人又はそれ以上の人物を識別した後に、前記１人又はそれ以上の人物を記録し、人物が先の記録に合致する場合に、前記１人又はそれ以上の人物のいずれかを再識別する
ステップを更に含む、方法。
請求項１２又は１３記載の方法を実施するためのプログラムコードを有するコンピュータプログラムであって、前記コンピュータプログラムが、コンピュータ、プロセッサ、処理回路、又はプログラム可能ハードウェアコンポーネント上で実行されるとき前記方法を実施する、コンピュータプログラム。