JP2024032618A - 異常送信プログラム、異常送信方法および情報処理装置 - Google Patents

異常送信プログラム、異常送信方法および情報処理装置 Download PDF

Info

Publication number
JP2024032618A
JP2024032618A JP2022136363A JP2022136363A JP2024032618A JP 2024032618 A JP2024032618 A JP 2024032618A JP 2022136363 A JP2022136363 A JP 2022136363A JP 2022136363 A JP2022136363 A JP 2022136363A JP 2024032618 A JP2024032618 A JP 2024032618A
Authority
JP
Japan
Prior art keywords
section
elemental
behavior
video
action
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2022136363A
Other languages
English (en)
Inventor
純也 藤本
源太 鈴木
宏樹 増原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2022136363A priority Critical patent/JP2024032618A/ja
Priority to US18/201,188 priority patent/US20240071082A1/en
Priority to EP23175368.2A priority patent/EP4332909A1/en
Publication of JP2024032618A publication Critical patent/JP2024032618A/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/62Extraction of image or video features relating to a temporal dimension, e.g. time-based feature extraction; Pattern tracking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/776Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/945User interactive design; Environments; Toolboxes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/94Hardware or software architectures specially adapted for image or video understanding
    • G06V10/95Hardware or software architectures specially adapted for image or video understanding structured as a network, e.g. client-server architectures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/46Extracting features or characteristics from the video content, e.g. video fingerprints, representative shots or key frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N7/00Television systems
    • H04N7/18Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast
    • H04N7/181Closed-circuit television [CCTV] systems, i.e. systems in which the video signal is not broadcast for receiving images from a plurality of remote sources

Abstract

【課題】人物の作業の識別精度を向上させることを課題とする。【解決手段】行動認識装置は、人物を撮影した映像を取得し、取得をした映像を機械学習モデルに入力することで、映像を分割した区間ごとに人物が実施をした要素行動に異常であるか否かを判定する。行動認識装置は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。行動認識装置は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて送信する。【選択図】図2

Description

本発明は、異常送信プログラム、異常送信方法および情報処理装置に関する。
近年、製造業、運輸業、サービス業など様々な業種で、人員コストの削減、人為的エラーの削減、作業効率の向上などの様々な用途を行う機械学習モデルの導入が進んでいる。
特開2022-82277号公報
ところで、上記機械学習モデルの一例として、映像から人物の作業を識別する機械学習モデルが知られている。このような機械学習モデルの開発業者は、機械学習モデルの導入、運用、導入先への監視ツール(Webアプリケーションなど)の提供などを一貫して行うことが多い。
しかしながら、上記一貫したサービス提供では、機械学習モデルの開発や更新と、Webアプリケーションの開発や更新を並行して行うこととなるので、機械学習モデルの更新頻度が少なく、人物の作業の識別精度を向上させることが難しい。
一つの側面では、人物の作業の識別精度を向上させることができる異常送信プログラム、異常送信方法および情報処理装置を提供することを目的とする。
第1の案では、異常送信プログラムは、コンピュータに、人物を撮影した映像を取得し、取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、処理を実行させることを特徴とする。
一実施形態によれば、人物の作業の識別精度を向上させることができる。
図1は、実施例1にかかるシステムの全体構成例を説明する図である。 図2は、実施例1にかかる行動認識装置を説明する図である。 図3は、実施例1にかかる各装置の機能構成を示す機能ブロック図である。 図4は、本実施形態の比較例を説明するための図である。 図5は、本実施形態の他の比較例を説明するための図である。 図6は、比較例の問題点を説明するための図である。 図7は、比較例の問題点を説明するための図である。 図8は、比較例の問題点を説明するための図である。 図9は、比較例の問題点を説明するための図である。 図10は、本実施形態の概要を説明するための図である。 図11は、行動区間検出部の機能ブロック図である。 図12は、第1モデルの一例である隠れセミマルコフモデルの概念図である。 図13は、第1隠れマルコフモデルの状態を例示する概念図である。 図14は、評価区間の設定を説明するための図である。 図15は、評価値の算出を説明するための図である。 図16は、本実施形態の効果を説明するための図である。 図17は、標準ルールを説明する図である。 図18は、異常送信の具体例1を説明する図である。 図19は、異常送信の具体例2を説明する図である。 図20は、異常送信の具体例3を説明する図である。 図21は、Web画面の表示例を説明する図である。 図22は、異常検出時のWeb画面の表示例を説明する図である。 図23は、機械学習処理の一例を示すフローチャートである。 図24は、検出処理の一例を示すフローチャートである。 図25は、要素行動区間及び評価区間の分割の一例を示す図である。 図26は、異常検出処理の流れを示すフローチャートである。 図27は、行動認識装置のハードウェア構成例を説明する図である。 図28は、クラウドサーバのハードウェア構成例を説明する図である。
以下に、本願の開示する異常送信プログラム、異常送信方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。
<全体構成>
図1は、実施例1にかかるシステムの全体構成例を説明する図である。図1に示すように、このシステムは、工場200、行動認識装置1、クラウドサーバ100を有するエッジクラウドシステムである。エッジに対応する行動認識装置1と、クラウドシステム上のクラウドサーバ100とがネットワークNを介して通信可能に接続される。なお、ネットワークNには、有線や無線を問わず、LTE(Long Term Evolution)回線やインターネットなどを用いることができる。
工場200は、様々な製品を生成する工場であり、作業員が作業を行う各作業場にカメラ201が設置される。なお、工場の種類や生成される製品などは、限定されるものではなく、例えば加工品を製造する工場、商品の流通を管理する工場、自動車工場など様々な分野に適用することができる。
行動認識装置1は、工場200に設定された複数のカメラ201それぞれと接続され、各カメラ201が撮像した映像(映像データ)を取得する。行動認識装置1は、カメラ201を識別する識別情報、カメラ201が設置される作業場所、当該カメラ201で撮像された映像などを対応付けてクラウドサーバ100に送信する。
クラウドサーバ100は、工場200の状態、各作業員の作業などを監視するWebアプリケーションを、ユーザに提供するサーバ装置の一例である。クラウドサーバ100は、カメラ201ごとの映像を行動認識装置1から収集し、各作業員の作業状態を閲覧可能なWebアプリケーションを提供する。
このような構成において、行動認識装置1は、工場200にて作業をする従業員を撮影した映像を取得し、取得をした映像を機械学習モデルに入力をすることで、映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定する。そして、行動認識装置1は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。その後、行動認識装置1は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて、クラウドサーバ100に送信する。
図2は、実施例1にかかる行動認識装置1を説明する図である。図2に示すように、行動認識装置1は、区間ごとに実施されるべき正しい要素行動もしくは標準的に実行される要素行動として「1.部品Aはめ込み、2.部品Aねじ止め・・・」などが規定された標準ルールを記憶する。
そして、行動認識装置1は、カメラ2に撮像された映像の分析を行い、「1.部品Aはめ込み、2.部品Bはめ込み、・・・」の行動が実行されたことを特定する。
その後、行動認識装置1は、標準ルールの「2.部品Aねじ止め」と、認識結果の「2.部品Bはめ込み」とが一致しないことから、認識結果の「2.部品Bはめ込み」に該当する映像と種別「認識結果の(2.部品Bはめ込み)」とを対応付けて、クラウドサーバ100に送信する。
このように、行動認識装置1が、工場の作業員の行動認識を行って異常行動の検出およびクラウドサーバ100への通知を実行し、クラウドサーバ100が、作業員の作業状態および作業内容が特定できる映像をユーザに提供する。
<機能構成>
図3は、実施例1にかかる各装置の機能構成を示す機能ブロック図である。ここでは、行動認識装置1とクラウドサーバ100との機能構成について説明する。
<行動認識装置1の機能構成>
図3に示すように、行動認識装置1は、通信部2、記憶領域4、制御部5を有する。通信部1は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部2は、クラウドサーバ100との間で各種情報の送受信を実行し、各カメラ201から映像を受信する。
記憶領域4は、各種データや制御部5が実行するプログラムを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶領域4は、第1モデル41、第2モデル42、標準ルール43を記憶する。
制御部5は、行動認識装置1全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部5は、行動区間検出部10と異常検出部50を有する。なお、行動区間検出部10と異常検出部50は、例えばプロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
(行動区間検出部10の説明)
まず、行動区間検出部10について説明する。行動区間検出部10は、人の映像から抽出された人の動作に関する時系列の特徴量に基づいて、映像から、検出対象の行動が発生した時間区間(以下、「行動区間」という)を検出する。本実施形態では、例えば、人が製品を製造する行動を検出対象の行動とし、製造の各工程を実施する際の人の動作の組み合わせを要素行動とする。すなわち、決まった順序で複数の工程を含む工場での作業のような、発生する順序に制約がある複数の要素行動を含む行動を検出対象の行動とする。
ここで、本実施形態の比較例として、手作業による映像の区間分割により、映像から行動区間を特定する方法が考えられる。この比較例は、例えば、図4の左図に示すように、一連の作業の様子をカメラで撮影した映像を取得し、図4の右図に示すように、取得された映像を目視することで、手作業で各要素行動の時間区間(以下、「要素行動区間」という)に分割する方法である。図4の例では、「部品Aはめ込み」、「部品Aねじ止め」、及び「カバー取付」がそれぞれ要素行動の一例である。このように、取得した映像毎に手作業で要素行動区間に分割する場合は、時間及び労力がかかる。
また、本実施形態の他の比較例として、図5の上図に示すように、1回分の映像に対して、手作業で要素行動区間を分割し、この分割結果を教師情報として、図5の下図に示すように、他の映像については、自動的に要素行動区間を分割することも考えられる。この場合、全ての映像に対して、手作業で要素行動区間を分割する場合に比べ、時間及び労力を省くことができる。
また、実際に取得される映像には、図6に示すように、検出対象の行動が複数回含まれる場合や、検出対象の行動以外の行動が含まれる場合がある。このような映像に対して、図5の上図に示すように手作業で要素行動区間を分割した行動区間の教師情報を適用して、映像内から所望の行動区間を推定し、そのうえで行動区間内を要素行動区間毎に分割することも考えられる。しかし、映像内にどのような動きが含まれるか不明であるため、すなわち、行動間の人の動作や、検出対象の行動以外の行動については教師情報によるモデル化がなされていないため、適切に検出対象の行動区間を推定することが困難である。
そこで、本実施形態の他の比較例として、映像に対して設定した候補区間毎に教師情報を適用し、候補区間内に教師情報が示す要素行動区間に対応する区間が含まれているか否かを評価することにより、候補区間が行動区間か否かを判定することが考えられる。例えば、図7に示すように、候補区間に含まれる時系列の特徴量(x、x、・・・、x10)を、教師情報に基づいて分割することにより、要素行動区間を推定する。図7では、特徴量x~xの区間が要素行動Aに対応する要素行動区間、特徴量x~xの区間が要素行動Bに対応する要素行動区間、特徴量x~x10の区間が要素行動Cに対応する要素行動区間として推定された例を示している。そして、要素行動区間毎に、特徴量と教師情報との適合度(適合度A、B、C)として算出し、それらの評価値を統合した最終的な評価値が予め定めた閾値を超える場合に、その候補区間を検出対象の行動区間として検出することが考えられる。
要素行動区間の特徴量と教師情報との適合度が高い場合、候補区間内で要素行動区間の分割が正しく行われていることを表している。図8に示すように、検出対象の行動の実際の時間区間において、特徴量が教師情報に近い時間帯が大部分を占めいている場合、実際の時間区間と同様の候補区間においては、適合度が高い要素行動区間が多くなり、最終的な評価値も高くなる。
一方、図9に示すように、検出対象の行動の実際の時間区間において、特徴量が教師情報に近い時間帯がまばらな場合、すなわち、特徴量と教師情報との相違が大きい時間帯が多い場合、適合度が低い要素行動区間が多くなり、最終的な評価値も低~中程度となる。この場合には、その候補区間は検出対象の行動区間として判定されなくなる。しかし、候補区間内の特徴量と教師情報とが近い時間帯がまばらな候補区間であっても、特徴量と教師情報とが近い時間帯が存在するのであれば、行動区間として検出したい場合もある。
そこで、本実施形態に係る行動区間検出部は、図10に示すように、特徴量と教師情報とが近い時間帯がまばらでも、粗く見れば特徴量と教師情報とが一致する時間帯が連続していることを利用して、候補区間が行動区間か否かを判定する。図10の例では、候補区間を序盤、中盤、及び終盤に分割して評価した場合、それぞれの部分で特徴量が教師情報にある程度あっているため、候補区間全体としての評価値が高くなり、行動区間として検出され易くなる。一方、検出対象の行動とは異なる行動が発生している映像の時間区間を候補区間としている場合には、教師情報と同じ順番で要素行動が表れないため、部分的には特徴量と教師情報とが一致しても、一致する時間帯が連続し難い。そのため、図10に示すように評価の粒度を粗くすることで、そのような候補区間は検出対象の行動区間として判定され難くなる。以下、本実施形態に係る行動区間検出部の詳細について説明する。
行動区間検出部10は、機能的には、図11に示すように、抽出部11と、機械学習部20と、検出部30とを含む。機械学習部20は、さらに、観測確率学習部21と、遷移確率学習部22と、構築部23と、評価用学習部24とを含む。検出部30は、さらに、設定部31と、推定部32と、評価部33と、判定部34とを含む。また、行動区間検出部10の所定の記憶領域には、第1モデル41と、第2モデル42とが記憶される。
抽出部11は、機械学習時において、学習用映像を取得する。学習用映像は、人の行動を撮影した映像であって、検出対象の行動の時間区間を示す行動区間、及び検出対象の行動に含まれる要素行動の各々の時間区間を示す要素行動区間の区切りを示す教師情報が付与された映像である。抽出部11は、学習用映像の行動区間の映像から人の動作に関する特徴量を算出し、時系列の特徴量を抽出する。また、抽出部12は、検出時において、検出用映像を取得する。検出用映像は、人の行動を撮影した映像であって、検出対象の行動区間及び要素行動区間の区切りが未知の映像である。抽出部11は、検出用映像からも同様に時系列の特徴量を抽出する。
抽出部11による映像からの時系列の特徴量の抽出方法の一例について具体的に説明する。抽出部11は、映像(学習用映像又は検出用映像)を構成する各フレームから人物検出技術を適用して人の領域(例えば、バウンディングボックス)を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部11は、1つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部11は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部11は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。
また、抽出部11は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、例えば、肘、膝等であってよい。また、抽出部11は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを算出する。
抽出部11は、機械学習時においては、抽出した時系列の特徴量と、学習用映像が持つ行動区間及び要素行動区間の区切りを示す教師情報とを教師ありデータとして機械学習部20へ受け渡し、検出時においては、抽出した時系列の特徴量を設定部31へ受け渡す。
機械学習部20は、第1モデル41及び第2モデル42の各々を、抽出部11から受け渡された教師ありデータを用いて機械学習を実行することにより生成する。
本実施形態では、検出対象の行動が発生した行動区間を推定する第1モデル41の一例として、図12に示すような隠れセミマルコフモデル(以下、「HSMM(Hidden Semi-Markov Model)」という)を構築する。HSMMは、隠れマルコフモデル(以下、「HMM(Hidden Markov Model)」という)のパラメータに加え、状態毎の継続時間の確率分布をパラメータとして持つ。
本実施形態のHSMMは、人の動作の各々を状態とする複数の第1HMMと、要素行動を状態とする第2HMMとを含む。図12において、m1、m2、m3は各動作に対応した状態であり、a1、a2、a3は各要素行動に対応した状態である。要素行動は、複数の動作の組み合わせであり、動作は、複数の姿勢の組み合わせである。パラメータを設定することで構築されたHSMMに、映像から抽出された人の動作に関する時系列の特徴量が与えられると、HSMMは最適な要素行動区間を推定する。図12において、d1、d2、d3は要素行動区間の一例である。
HMMのパラメータには、観測確率及び遷移確率が存在する。図12において、O1、O2、・・・、O8は観測確率の一例であり、遷移確率は状態間をつなぐ矢印に対応付けられている。観測確率とは、各状態において、ある観測データが観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数及び要素行動の数、すなわち、第1HMM及び第2HMMの数は例示であり、図12に例示される数に限定されない。以下、機械学習部20に含まれる観測確率学習部21、遷移確率学習部22、構築部23、及び評価用学習部24の各々について詳述する。
観測確率学習部21は、以下に説明するように、教師ありデータから教師情報を除いた時系列の特徴量(以下、「教師なしデータ」ともいう)で第1モデル41の一例であるHSMMを構成する各動作の観測確率を学習する。
本実施形態では、ある作業目標を達成するための限定された行動を検出対象の行動とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
性質1:行動を構成する各要素行動の違いは、限定された複数の動作の組み合わせの違いである。
性質2:同じ行動を行う際に観測される複数の姿勢は類似している。
本実施形態では、性質1に基づいて、全ての行動が1つの動作群に含まれる動作で構成される。例えば、図13に示すように、動作群には、例えば、3つの動作m11、m12、m13が含まれる。例えば、動作m11は「腕を上げる」、動作m12は「腕を降ろす」、動作m13は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図13の例に限定されない。また、各要素行動に含まれる動作の数も図13の例に限定されない。
例えば、観測確率学習部21は、混合ガウス分布(以下、「GMM(Gaussian Mixture Model)」という)モデルを用いて各動作の観測確率を算出する。具体的には、観測確率学習部21は、抽出部11から受け渡された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたGMMのパラメータを推定する。そして、観測確率学習部21は、パラメータが推定されたGMMを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。
遷移確率学習部22は、以下に説明するように、教師ありデータに基づいて、第1HMMで表される動作間の遷移確率を算出する。具体的には、遷移確率学習部22は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を要素行動区間毎に振り分ける。そして、遷移確率学習部22は、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、観測確率学習部21で算出された各動作の観測確率を固定し、例えば、最尤推定やEM(Expectation-Maximization algorithm)アルゴリズム等を使用して、動作間の遷移確率を算出する。
なお、教師ありデータの作成には時間及び労力がかかるため、遷移確率学習部22は、種となる教師ありデータにノイズを付加する等して教師ありデータを水増ししてもよい。
構築部23は、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。例えば、構築部23は、教師情報で与えられた各要素行動区間の継続時間に対して所定の範囲の一様分布を、要素行動の継続時間の確率分布として設定する。
構築部23は、観測確率学習部21で算出された各動作の観測確率、遷移確率学習部22で算出された動作間の遷移確率、及び設定した各要素行動の継続時間を使用して、例えば図12に示すようなHSMMを第1モデル41として構築する。第1モデル41は、設定した継続時間後に教師情報で与えられた各要素行動の順番に、各要素行動に対応する第2HMMが遷移するHSMMである。図12において、O1、O2、・・・、O8は、観測確率学習部21で算出される観測確率を表す。また、要素行動a1、a2、a3の各々に含まれる動作m1、m2、及びm3間の矢印に対応付けられる遷移確率は、遷移確率学習部22で算出される遷移確率に対応する。また、d1、d2、d3は、各要素行動の継続時間を表す。構築部23は、構築した第1モデル41を所定の記憶領域に記憶する。
評価用学習部24は、抽出部11から受け渡された教師ありデータを用いて機械学習を実行することにより、評価区間の評価結果を推定するための第2モデル42を生成する。評価区間は、要素行動区間を組み合わせた区間である。具体的には、評価用学習部24は、抽出部11から受け渡された教師ありデータの教師情報が示す要素行動区間に基づいて、評価区間同士で重複する要素行動区間を含むことを許容して、連続する2以上の要素行動区間を組み合わせて評価区間を設定する。
より具体的には、評価用学習部24は、行動区間の時間に対して一定割合(例えば、20%)以上の時間を含む要素行動区間の組み合わせを特定する。そして、評価用学習部24は、前の組み合わせの開始時刻より、特定した組み合わせの開始時刻が行動区間の時間に対して一定割合(例えば、10%)以上の時間離れるようにずらして評価区間を設定してよい。例えば、図14に示すように、ある教師ありデータが示す行動区間が要素行動区間1、2、・・・、6に分割されているとする。この場合、評価用学習部24は、一例として、下記に示すような評価区間を設定してよい。
要素行動区間1と要素行動区間2とを組み合わせた評価区間A
要素行動区間2と要素行動区間3とを組み合わせた評価区間B
要素行動区間3と要素行動区間4とを組み合わせた評価区間C
要素行動区間4と要素行動区間5とを組み合わせた評価区間D
要素行動区間5と要素行動区間6とを組み合わせた評価区間E
また、評価用学習部24は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を評価区間毎に振り分ける。そして、評価用学習部24は、各評価区間に振り分けられた時系列の特徴量を観測データとし、観測確率学習部21で算出された各動作の観測確率を固定し、例えば、最尤推定やEMアルゴリズム等を使用して、動作間の遷移確率を算出する。これにより、評価用学習部24は、評価区間に対応する時系列の特徴量が観測データとして入力された際に、その観測データの観測確率を出力する評価区間毎のHMMを第2モデル42として構築する。評価用学習部24は、構築した第2モデル42を所定の記憶領域に記憶する。
検出部30は、抽出部11から受け渡された時系列の特徴量に基づいて、検出用映像から、複数の動作で表される要素行動を所定の順序で複数含む検出対象の行動の時間区間である行動区間を検出する。以下、検出部30に含まれる設定部31、推定部32、評価部33、及び判定部34の各々について詳述する。
設定部31は、抽出部11から受け渡された時系列の特徴量において、開始時刻を1時刻ずつ変動させ、開始時刻の各々について、終了時刻を開始時刻より時間的に後の時刻で1時刻ずつ変動させることで、複数の候補区間を設定する。なお、候補区間を設定するための開始時刻及び終了時刻の変動幅は1時刻ずつに限定されず、例えば、2時刻ずつ、あるいは3時刻ずつであってもよい。設定部31は、設定した候補区間を推定部32へ受け渡す。
推定部32は、候補区間毎に、候補区間に対応する時系列の特徴量を第1モデル41に入力することにより、候補区間における要素行動区間の各々を推定する。推定部32は、推定した、各候補区間についての要素行動区間の情報を評価部33へ受け渡す。
評価部33は、候補区間毎に、推定部32から受け渡された要素行動区間を組み合わせた評価区間に対応する時系列の特徴量を第2モデル42に入力することにより、評価区間毎の評価結果を取得する。
具体的には、評価部33は、第2モデル42の構築の際に設定された評価区間と同様に要素行動区間を組み合わせた評価区間を候補区間に対して設定する。評価部33は、評価区間に対応する時系列の特徴量を第2モデル42である評価区間毎のHMMにそれぞれ入力する。これにより、評価部33は、評価区間の全種類についてHMMが出力する観測確率を、該当の評価区間に対応する時系列の特徴量の第2モデル42に対する適合度として推定する。評価部33は、各評価区間について推定した、評価区間の全種類分の適合度を規格化した相対適合度を算出する。例えば、評価部33は、評価区間の全種類分の適合度の合計が1になるように規格化する。そして、評価部33は、評価区間の各々から、検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する評価区間の種類についての相対適合度を選択し、選択した相対適合度を統合して最終的な評価値を算出する。例えば、評価部33は、選択した相対適合度の平均、中央値、総乗等を最終的な評価値として算出してよい。
例えば、図15に示すように、評価区間Aに特徴量x~x、評価区間Bに特徴量x~x、評価区間Cに特徴量x~x、評価区間Dに特徴量x~x12、評価区間Eに特徴量x10~x14が振り分けられるとする。この場合、評価部33は、下記に示すように、各評価区間について適合度を算出する。
評価区間A:P(x,x,x,x,x|X)
評価区間B:P(x,x,x,x,x|X)
評価区間C:P(x,x,x,x|X)
評価区間D:P(x,x,x10,x11,x12|X)
評価区間E:P(x10,x11,x12,x13,x14|X)
ただし、X=A,B,C,D,E
評価部33は、例えば、P(x,x,x,x,x|A)を、下記(1)式に示すように算出する。ただし、stは、評価区間Aの内部的な状態遷移に関しての各時刻の状態である。
Figure 2024032618000002
なお、上記(1)式は、第2モデル42を要素行動の順序を考慮するHMMで構築している場合の例である。第2モデル42を要素行動の順序を考慮しないGMMで構築している場合、P(x,x,x,x,x|A)は、下記(2)式となる。
Figure 2024032618000003
そして、例えば、評価部33は、図15に示すように、評価区間毎に相対適合度を算出し、該当の評価区間についての相対適合度(図15中で下線で示す値)を選択する。例えば、評価部33は、評価区間Aについては、A、B、C、D、及びEの各々について算出した相対適合度のうち、Aについての相対適合度を選択する。評価部33は、選択した相対適合度を平均して最終的な評価値を算出する。評価部33は、算出した最終的な評価値を判定部34へ受け渡す。
判定部34は、候補区間内の評価区間の各々の評価結果に基づいて、候補区間が検出対象の行動区間か否かを判定する。具体的には、判定部34は、評価部33から受け渡された最終的な評価値が所定の閾値以上か否かを判定する。判定部34は、最終的な評価値が所定の閾値以上の場合には、候補区間を行動区間として判定する。例えば、図15の例において、閾値を0.5とすると、図15に示す候補区間は検出対象の行動区間であると判定される。判定部34は、検出用映像から、行動区間と判定された区間を検出し、検出結果として出力する。なお、行動区間であると判定された候補区間同士が重複している場合、判定部34は、最終的な評価値が最も高い候補区間を優先的に行動区間として判定するようにしてよい。
上記のように、候補区間に対して、要素行動区間を組み合わせた評価区間を設定することで、例えば、図16に示すように、特徴量と教師データとが近い時間帯がまばらな場合でも、相対適合度が高くなる評価区間が多くなり、最終的な評価値が高くなる。これにより、その候補区間が検出対象の行動区間として判定され易くなる。
(異常検出部50の説明)
図3に示す異常検出部50は、工場200にて作業をする従業員を撮影した映像を取得し、取得をした映像を機械学習モデルに入力をすることで、映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定する。そして、異常検出部50は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。その後、異常検出部50は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて送信する。
例えば、異常検出部50は、区間ごとに正常な要素行動が対応付けられた標準ルール43と、映像を分割した区間ごとに従業員が実施をしたと特定された各要素行動とを比較し、標準ルール43と一致しない要素行動が含まれる区間を、異常である区間と判定する。すなわち、検出対象は、人物が製品を製造する際の異常な行動である。
図17は、標準ルール43を説明する図である。図17に示すように、標準ルール43は、「作業現場、カメラ、作業内容、時間帯、要素行動」が対応付けられた情報である。「作業現場」は、対象となる作業の場所を示し、「カメラ」は、作業現場に設置されるカメラ201を識別する識別子である。「作業内容」は、対象となる作業内容を示し、「時間帯」は、対象となる作業が行われる時間帯を示し、「要素行動」は、製造の各工程を実施する際の人物の動作の組み合わせであり、区間ごとに実行されるべき正常な要素行動の順序である。
図17の例では、カメラA1が設置される作業現場Aでは、9:00から12:00の時間帯に、製品Zの組立を行う「要素行動1」、「要素行動2」、「要素行動3」の各要素行動が順次行われることが予め設定されている。
なお、図17に示すように、標準ルール43は、一例として、区間ごとに実施されるべき正常な要素行動の順序が規定された情報である。この場合、異常検出部50は、映像を分割した区間ごとに、標準ルール43に規定される要素行動の順序と、映像から特定された従業員の要素行動の順序とを比較し、要素行動の順序が異なる区間を、異常である区間と判定する。なお、正常な要素行動の順序は、必ずしも複数の要素行動を含んでいなくてもよく、1つの要素行動であってもよい。
そして、異常検出部50は、検出対象の各要素行動が推定されると、作業現場、カメラ、時間帯などを用いて、標準ルール43から正しい要素行動を特定し、推定された各要素行動と正しい要素行動との比較により、異常検出を実行する。その後、異常検出部50は、クラウドサーバ100とのセッションを確立し、当該セッションを用いて、異常が検出された区間、当該区間に該当する異常と検出された要素行動の種別などをクラウドサーバ100に通知する。なお、異常検出部50は、区間の映像と異常であると判定された要素行動の種別とをクラウドサーバ100に送信する際に、クラウドサーバ100にユーザから指定された要素行動の種別に基づいて区間の映像を分類して表示させる指示も送信することができる。
ここで、異常検出部50は、行動区間検出部10による処理の結果を用いて、異常検出を実行するが、行動区間検出部10による処理過程のいくつかのタイミングで、異常検出および異常送信を行うことができる。
(パターン1)
まず、異常検出部50が、第1モデル41による処理結果を用いて、異常検出および異常送信を実行する例を説明する。図18は、異常送信の具体例1を説明する図である。図18に示すように、行動区間検出部10は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第1モデル41により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動1から6が含まれている。
そこで、異常検出部50は、標準ルール43に記憶される正常な要素行動「要素行動1→要素行動3→要素行動2→要素行動4→要素行動5→要素行動6」と、推定された各要素行動「要素行動1→要素行動2→要素行動3→要素行動4→要素行動5→要素行動6」とを比較する(図18の(1)参照)。そして、異常検出部50は、推定された要素行動「要素行動2→要素行動3」が正常な要素行動「要素行動3→要素行動2」と異なることを検出する(図18の(2)参照)。
この結果、異常検出部50は、異常が検出されたので、異常区間の映像および異常情報をクラウドサーバ100に送信する(図18の(3)参照)。例えば、異常検出部50は、異常検出を含む映像、当該映像における異常が検出された区間「01:00:10-01:50:15」、異常と検出された要素行動(異常行動)の種別「部品Aねじ止め、部品Bねじ止め」、標準ルール43に登録されている正常行動「部品Aねじ止め、部品Aねじ接着」などをクラウドサーバ100に送信する。
このようにすることで、異常検出部40は、推定された各要素行動のうち、間違った行動が行われている可能性が高い要素行動をクラウドサーバ100に通知できる。
(パターン2)
次に、異常検出部50が、第2モデル42による処理結果を用いて、異常検出および異常送信を実行する例を説明する。図19は、異常送信の具体例2を説明する図である。図19に示すように、行動区間検出部10は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第1モデル41により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動1から6が含まれている。
その後、行動区間検出部10は、評価区間ごとの評価値を算出し、評価値および閾値に基づいて候補区間が行動区間か否かを判定する。
そこで、異常検出部50は、評価区間A「要素行動1、要素行動2」、評価区間B「要素行動2、要素行動3」、評価区間C「要素行動3、要素行動4」、評価区間D「要素行動4、要素行動5」、評価区間D「要素行動5、要素行動6」のうち、行動区間検出部10により相対適合度が閾値以下と判定された「評価区間B」を異常と検出する(図19の(1)参照)。
この結果、異常検出部50は、異常と判定された評価区間Bに関する情報をクラウドサーバ100に送信する(図19の(2)参照)。例えば、異常検出部50は、評価区間Bを含む映像、評価区間Bの情報「01:15:30-01:50:40」、相対適合度(低)などをクラウドサーバ100に送信する。
このようにすることで、異常検出部40は、各候補区間のうち、評価の低い区間およびその情報をクラウドサーバ100に送信できるので、区間の特定手法の改善、評価が低い区間の要素行動の集約などを実行することができる。
(パターン3)
次に、異常検出部50が、第2モデル42による処理結果により各評価区間が正常な区間と特定された場合に、異常検出および異常送信を実行する例を説明する。図20は、異常送信の具体例3を説明する図である。図20に示すように、行動区間検出部10は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第1モデル41により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動1から6が含まれている。
その後、行動区間検出部10は、評価区間ごとの評価値を算出し、評価値および閾値に基づいて候補区間が行動区間か否かを判定する。そして、行動区間検出部10は、評価区間A「要素行動1、要素行動2」、評価区間B「要素行動2、要素行動3」、評価区間C「要素行動3、要素行動4」、評価区間D「要素行動4、要素行動5」、評価区間D「要素行動5、要素行動6」の各評価値に基づき、最終的な評価値を「高」と判定する。この結果、行動区間検出部10は、各評価区間内の要素行動1~6およびその順序を検出結果と特定する。
そこで、異常検出部50は、行動区間検出部10による最終的な評価値を「高」を参照し(図20の(1)参照)、行動区間検出部10の推定結果を信用し(図20の(2)参照)、要素行動1~6およびその順序を取得する(図20の(3)参照)。
そして、異常検出部50は、標準ルール43に記憶される正常な要素行動「要素行動1→要素行動3→要素行動2→要素行動4→要素行動5→要素行動6」と、推定された各要素行動「要素行動1→要素行動2→要素行動3→要素行動4→要素行動5→要素行動6」とを比較する(図20の(4)参照)。異常検出部50は、推定された要素行動「要素行動2→要素行動3」が正常な要素行動「要素行動3→要素行動2」と異なることを検出する(図20の(5)参照)。
この結果、異常検出部50は、異常が検出されたので、異常区間の映像および異常情報をクラウドサーバ100に送信する(図20の(6)参照)。このようにすることで、異常検出部40は、評価対象として正しい要素行動を前提に、間違った行動が行われている可能性が高い要素行動をクラウドサーバ100に通知できる。
<クラウドサーバ100の機能構成>
図3に示すように、クラウドサーバ100は、通信部101、表示部102、記憶領域103、制御部105を有する。
通信部101は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部101は、行動認識装置1との間で各種情報の送受信を実行する。
表示部102は、各種情報を表示出力する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。例えば、表示部102は、映像に関する情報や異常と判定された要素行動に関する情報などを閲覧するためのWeb画面を表示する。
記憶領域103は、各種データや制御部105が実行するプログラムを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶領域103は、標準ルール104を記憶する。なお、標準ルール104は、標準ルール43と同様なので詳細な説明は省略する。
制御部105は、クラウドサーバ100全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部105は、受信部106と表示出力部107を有する。なお、受信部106と表示出力部107は、例えばプロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。
受信部106は、行動認識装置1から各種情報を受信する処理部である。例えば、受信部106は、行動認識装置1からのセッション要求を受信すると、行動認識装置1からのセッション確立を受け入れて、セッションを確立する。そして、受信部106は、セッションを用いて行動認識装置1から送信される異常行動に関する情報を受信し、記憶領域104等に格納する。
表示出力部107は、ユーザからの要求に応じて、映像に関する情報や異常と判定された要素行動に関する情報などを閲覧するためのWeb画面を表示出力する処理部である。具体的には、表示出力部107は、工場の管理者などから表示要求を受信すると、Web画面を出力し、Web画面を介して様々な情報の生成および出力を実行する。
図21は、Web画面の表示例を説明する図である。図21に示すように、表示出力部107は、作業管理サービスのWeb画面110を表示出力する。Web画面110は、映像が表示される映像表示領域120と行動認識装置1による行動認識結果が表示される行動認識結果領域130とを含み、作業場選択ボタン140やカメラ選択ボタン150により、映像表示領域120内の映像や行動認識結果領域130内の行動認識結果が切り替えられる。
映像表示領域120は、表示する時間を選択できる選択バー121を有し、ユーザが選択バー121を動かすことにより、映像表示領域120に表示される映像の時間帯を進めたり、巻き戻したりすることができる。行動認識結果領域130には、行動認識装置1により認識された各行動と各行動が写っている映像の時間帯(開始と終了)とを含む認識結果131が表示される。
表示出力部107は、映像を映像表示領域120に表示し、表示する映像内で要素行動が検出された時間になると、行動認識結果領域130の認識結果131に「行動、開始、終了」のレコードを生成して要素行動の情報を出力する。
ここで、表示出力部107は、異常な要素行動が検出された場合は、行動認識結果領域130の認識結果131に、異常とわかる形式で表示を実行する。図22は、異常検出時のWeb画面の表示例を説明する図である。図22に示すように、表示出力部107は、認識結果131内に、異常と検出された要素行動を表示する際に、バツ印などもあわせて表示することで、ユーザへの視認性を向上させる。また、表示出力部107は、ユーザからの要求に応じて、作業現場で行われる行動ごとの異常検出回数を計数し、グラフなどで履歴情報132を表示することもできる。
<処理の流れ>
次に、本実施形態に係る行動認識装置1の作用について説明する。行動区間検出部10に学習用映像が入力され、第1モデル41及び第2モデル42の機械学習の実行が指示されると、行動区間検出部10において、図123に示す機械学習処理が実行される。また、行動区間検出部10に検出用映像が入力され、検出対象の行動区間の検出の実行が指示されると、行動区間検出部10において、図24に示す検出処理が実行される。なお、機械学習処理及び検出処理は、開示の技術の行動区間検出方法の一例である。
まず、図23に示す機械学習処理について説明する。
ステップS11で、抽出部11が、行動区間検出部10に入力された学習用映像を取得し、学習用映像の行動区間の映像から人の動作に関する時系列の特徴量を抽出する。
次に、ステップS12で、観測確率学習部21が、上記ステップS11で抽出された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたGMMのパラメータを推定する。そして、観測確率学習部21が、パラメータが推定されたGMMを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。
次に、ステップS13で、遷移確率学習部22が、上記ステップS11で抽出された時系列の特徴量を、教師ありデータが持つ教師情報が示す要素行動区間毎に振り分ける。次に、ステップS14で、遷移確率学習部22が、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、上記ステップS12で算出された各動作の観測確率を固定し、動作間の遷移確率を算出する。
次に、ステップS15で、構築部23が、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。次に、ステップS16で、構築部23が、上記ステップS12で算出された各動作の観測確率、上記ステップS14で算出された動作間の遷移確率、及び上記ステップS15で設定した各要素行動の継続時間を使用しHSMMを、第1モデル41として構築する。そして、構築部23が、構築した第1モデル41を所定の記憶領域に記憶する。
次に、ステップS17で、評価用学習部24が、教師ありデータの教師情報が示す要素行動区間に基づいて、評価区間同士で重複する要素行動区間を含むことを許容して、連続する2以上の要素行動区間を組み合わせて評価区間を設定する。次に、ステップS18で、評価用学習部24が、教師ありデータが持つ教師情報に基づいて時系列の特徴量を評価区間毎に振り分ける。
次に、ステップS19で、評価用学習部24が、各評価区間に振り分けられた時系列の特徴量を観測データとし、上記ステップS12で算出された各動作の観測確率を固定し、動作間の遷移確率を算出することにより、評価区間毎の観測確率を算出する。これにより、評価用学習部24が、評価区間に対応する時系列の特徴量が観測データとして入力された際に、その観測データの観測確率を出力する評価区間毎のHMMを第2モデル42として構築する。そして、評価用学習部24が、構築した第2モデル42を所定の記憶領域に記憶し、機械学習処理は終了する。
次に、図24に示す検出処理について説明する。
ステップS21で、抽出部11が、行動区間検出部10に入力された検出用映像を取得し、検出用映像から人の動作に関する時系列の特徴量を抽出する。次に、ステップS22で、設定部31が、上記ステップS21で抽出された時系列の特徴量において、開始時刻を1時刻ずつ変動させ、開始時刻の各々について、終了時刻を開始時刻より時間的に後の時刻で1時刻ずつ変動させることで、複数の候補区間を設定する。以下のステップS23~S25の処理は、候補区間毎に実行される。
次に、ステップS23で、推定部32が、候補区間に対応する時系列の特徴量を第1モデル41に入力することにより、候補区間における要素行動区間の各々を推定する。次に、ステップS24で、評価部33が、第2モデル42の構築の際に設定された評価区間と同様に要素行動区間を組み合わせた評価区間を候補区間に対して設定する。そして、評価部33が、評価区間に対応する時系列の特徴量を第2モデル42である評価区間毎のHMMにそれぞれ入力することにより、各評価区間に対応する時系列の特徴量の第2モデル42に対する評価区間の全種類について適合度として推定する。そして、評価部33が、各評価区間の各々について推定した、評価区間の全種類分の適合度を規格化した相対適合度を算出する。さらに、評価部33が、各評価区間から、検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する評価区間の種類についての相対適合度を選択し、選択した相対適合度を統合して最終的な評価値を算出する。
次に、ステップS25で、判定部34が、上記ステップS24で算出された最終的な評価値が所定の閾値以上か否かを判定することにより、候補区間が行動区間か否かを判定する。次に、ステップS26で、判定部34が、検出用映像から、行動区間と判定された区間を検出し、検出結果として出力し、検出処理は終了する。
以上説明したように、本実施形態に係る行動区間検出部10は、人の行動を撮影した映像から時系列の特徴量を抽出する。また、行動区間検出部10は、映像の一部の区間である候補区間に対応する時系列の特徴量を第1モデルに入力することにより、候補区間における要素行動区間を推定する。そして、行動区間検出部10は、要素行動区間を組み合わせた評価区間に対応する時系列の特徴量を第2モデルに入力することにより、評価区間毎の評価結果を取得し、評価区間の各々の評価結果に基づいて、候補区間が検出対象の行動区間か否かを判定する。これにより、人の映像において、指定した行動が発生した時間区間を適切かつ容易に検出することができる。すなわち、本実施形態に係る行動認識装置1は、コンピュータの機能を改善するものである。
また、要素行動区間と評価区間とを同一とし、同じモデルを利用した場合、要素行動区間を推定する際に、候補区間の中で適合度が大きくなるように推定されるため、誤った候補区間でも偶発的に高評価になってしまい易い。一方、本実施形態に係る行動認識装置1では、要素行動区間を推定するための第1モデルと、評価値を算出するための第2モデルとが異なることで、検出対象の行動ではない時間に対応する候補区間、すなわち、低評価となって欲しい候補区間が高評価になり難い。これは、要素行動区間の推定と評価値の算出とで異なるモデルを利用することで、要素行動区間の推定は、直接的に適合度を大きくすることを目的としないためである。
また、要素行動の境界で動きが切り替わることが多いため、要素行動区間を組み合わせた区間を評価区間とすることで、評価区間の境界についても動きが切り替わる時間となる。これにより、第2モデルを構成する各評価区間のモデル(上記実施形態の例では、HMM)が表現する要素行動の組み合わせが明確になる。すなわち、評価区間のモデル間の差が明確になる。そのため、より適切な評価値を算出することができる。
また、各評価区間は要素行動区間の重複を許容することで、評価指標として粗くなり過ぎることを防ぎ、特徴量が教師データに近い時間帯が候補区間内にまんべんなく発生している場合の方がより高評価とすることができる。例えば、図16の例で、要素行動区間の重複を許さず、評価区間A、C、及びEを設定したとする。この場合、要素行動区間2及び3で、特徴量が教師データに近い時間帯が発生していない分、評価区間A及びCが低評価となり易く、3つの評価区間のうち2つが低評価となり、全体として低評価となる可能性がある。一方、要素行動区間の重複を許容して図16に示すように評価値A、B、C、D、及びEを設定した場合、5つの評価区間のうち低評価となるのは評価区間Bのみであり、全体としての評価は、要素行動区間の重複を許さない場合に比べ、高評価とすることができる。
なお、上記実施形態では、第1モデルがHSMM、第2モデルがHMMである場合について説明したが、これに限定されない。各モデルとしては、ニューラルネットワークを利用したモデルなど、他の機械学習モデルを適用してもよい。
また、上記実施形態において、第1モデルの機械学習を実行する際に、要素行動区間を時間的に分割し、第2モデルの機械学習を実行する際に、評価区間を時間的に分割してもよい。この場合、分割した各区間について動作の遷移確率をモデル化し、分割した区間に対応する状態は確率的ではなく決定的な順番で出現するように全体をモデル化する。この際、図25に示すように、要素行動区間と評価区間とで、分割後の区間が異なるように、要素行動区間及び評価区間の各々を分割する分割数を決定する。これにより、第1モデルと第2モデルとは、異なる区間で機械学習が実行されたモデルの集まりとなり、第1モデルと第2モデルとの差をより顕著にすることができる。
次に、図26に示す異常検出処理について説明する。図26は、異常検出処理の流れを示すフローチャートである。
図26に示すように、異常検出部50は、行動区間検出部10により要素行動の認識が終了すると(S101:Yes)、判定対象とする行動区間を特定する(S102)。続いて、異常検出部50は、行動区間内で認識された要素行動を取得し(S103)、認識された要素行動と標準ルール43とを比較する(S104)。
その後、異常検出部50は、相違点がある場合(S105:Yes)、相違する行動の箇所を異常結果として検出し(S106)、異常結果と異常結果が含まれる映像とをクラウドサーバ100に送信する(S107)。
上述したように、行動認識装置1が、工場の作業員の行動認識を行って異常行動の検出およびクラウドサーバ100への通知を実行し、クラウドサーバ100が、作業員の作業状態および作業内容が特定できる映像をユーザに提供する。この結果、行動認識装置1とWebアプリケーションとを別々の管理者が各々でバージョンアップ等を実行できるので、械学習モデルの更新頻度を増加させ、人物の作業の識別精度を向上させることができる。
さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。
(数値等)
上記実施例で用いた数値例、モデル数、要素行動、特徴量等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。
(システム)
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、行動区間検出部10と異常検出部50とを同一の装置で実現することもできる。
さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、CPUおよび当該CPUにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。
(行動認識装置1のハードウェア)
図27は、行動認識装置1のハードウェア構成例を説明する図である。図27に示すように、行動認識装置1は、通信装置1a、HDD(Hard Disk Drive)1b、メモリ1c、プロセッサ1dを有する。また、図27に示した各部は、バス等で相互に接続される。なお、これら以外にもディスプレイやタッチパネルなどを有することができる。
通信装置1aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD1bは、図3に示した機能を動作させるプログラムやDBを記憶する。
プロセッサ1dは、図3に示した各処理部と同様の処理を実行するプログラムをHDD1b等から読み出してメモリ1cに展開することで、図3等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、行動認識装置1が有する各処理部と同様の機能を実行する。具体的には、プロセッサ1dは、行動区間検出部10と異常検出部50等と同様の機能を有するプログラムをHDD1b等から読み出す。そして、プロセッサ1dは、行動区間検出部10と異常検出部50等と同様の処理を実行するプロセスを実行する。
このように、行動認識装置1は、プログラムを読み出して実行することで行動認識方法を実行する情報処理装置として動作する。また、行動認識装置1は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、行動認識装置1によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク(FD)、CD-ROM、MO(Magneto-Optical disk)、DVD(Digital Versatile Disc)などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
(クラウドサーバ100のハードウェア)
図28は、クラウドサーバ100のハードウェア構成例を説明する図である。図28に示すように、クラウドサーバ100は、通信装置100a、HDD100b、表示装置100c、メモリ100d、プロセッサ100eを有する。また、図28に示した各部は、バス等で相互に接続される。なお、これら以外にもディスプレイやタッチパネルなどを有することができる。
通信装置100aは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。HDD100bは、図3に示した機能を動作させるプログラムやDBを記憶する。表示装置100cは、Webページなどの各種情報を表示出力する。
プロセッサ100eは、図3に示した各処理部と同様の処理を実行するプログラムをHDD100b等から読み出してメモリ100dに展開することで、図3等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、クラウドサーバ100が有する各処理部と同様の機能を実行する。具体的には、プロセッサ100eは、受信部106と表示出力部107等と同様の機能を有するプログラムをHDD100b等から読み出す。そして、プロセッサ100eは、受信部106と表示出力部107等と同様の処理を実行するプロセスを実行する。
このように、クラウドサーバ100は、プログラムを読み出して実行することで表示方法を実行する情報処理装置として動作する。また、クラウドサーバ100は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、クラウドサーバ100によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。
このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク、CD-ROM、MO、DVDなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。
1 行動認識装置
2 通信部
4 記憶領域
41 第1モデル
42 第2モデル
43 標準ルール
5 制御部
10 行動区間検出部
50 異常検出部
100 クラウドサーバ
101 通信部
102 表示部
103 記憶領域
104 標準ルール
105 制御部
106 受信部
107 表示出力部

Claims (13)

  1. コンピュータに、
    人物を撮影した映像を取得し、
    取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、
    前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
    抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
    処理を実行させることを特徴とする異常送信プログラム。
  2. 前記送信する処理は、
    前記要素行動が異常であると判定されたときには、サーバ装置との間でセッションを確立し、
    確立された前記セッションを用いて、前記区間の映像と、異常であると判定された前記要素行動の種別とを、前記サーバ装置に送信する、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  3. 前記送信する処理は、
    前記区間の映像と前記異常であると判定された前記要素行動の種別とを前記サーバ装置に送信する際に、ユーザから指定された要素行動の種別に基づいて前記区間の映像を分類して表示させる指示も前記サーバ装置に送信する、
    ことを特徴とする請求項2に記載の異常送信プログラム。
  4. 前記判定する処理は、
    区間ごとに正常な要素行動が対応付けられた標準ルールと、前記映像を分割した区間ごとに前記人物が実施をしたと特定された各要素行動とを比較し、
    前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  5. 前記標準ルールは、
    区間ごとに実施されるべき正常な要素行動の順序が規定された情報であり、
    前記判定する処理は、
    前記映像を分割した区間ごとに、前記標準ルールに規定される要素行動の順序と、前記映像から特定された従業員の要素行動の順序とを比較し、
    前記要素行動の順序が異なる区間を、前記異常である区間と判定する、
    ことを特徴とする請求項4に記載の異常送信プログラム。
  6. 前記機械学習モデルは、
    第1の機械学習モデルと第2の機械学習モデルを有し、
    前記判定する処理は、
    人の行動を撮影した映像から時系列の特徴量を抽出し、
    前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第1の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
    前記要素行動区間を組み合わせた評価区間に対応する前記時系列の特徴量を前記第2の機械学習モデルに入力することにより、前記評価区間毎の評価結果を取得し、
    前記候補区間内の前記評価区間の各々の評価結果に基づいて、前記候補区間が検出対象の行動の時間区間を示す行動区間か否かを判定する、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  7. 前記要素行動は、製造の各工程を実施する際の前記人物の動作の組み合わせであり、
    前記検出対象は、前記人物が製品を製造する際の異常な行動である、
    ことを特徴とする請求項6に記載の異常送信プログラム。
  8. 前記機械学習モデルは、
    第1の機械学習モデルと第2の機械学習モデルを有し、
    前記判定する処理は、
    人の行動を撮影した映像から時系列の特徴量を抽出し、
    前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第1の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
    推定された前記要素行動区間と、記憶部に記憶された区間ごとに正常な要素行動が対応付けられた標準ルールとを比較し、
    前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  9. 前記機械学習モデルは、
    第1の機械学習モデルと第2の機械学習モデルを有し、
    前記判定する処理は、
    人の行動を撮影した映像から時系列の特徴量を抽出し、
    前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第1の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
    前記要素行動区間を組み合わせた評価区間に対応する前記時系列の特徴量を前記第2の機械学習モデルに入力することにより、前記評価区間毎の評価結果を取得し、
    前記候補区間内の前記評価区間の各々の評価結果に基づいて、前記候補区間が検出対象の行動の時間区間を示す行動区間か否かを判定し、
    判定された前記行動区間と、記憶部に記憶された区間ごとに正常な要素行動が対応付けられた標準ルールとを比較し、
    前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  10. 前記判定する処理は、
    前記評価区間に対応する前記時系列の特徴量と、前記第2の機械学習モデルが示す教師情報との適合度を、前記評価区間毎に評価区間の全種類について推定し、
    前記評価区間の各々について推定された前記評価区間の全種類分の適合度を規格化し、
    前記評価区間の各々から、前記検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する種類についての、規格化された適合度を選択し、
    前記評価区間の各々から選択した前記規格化された適合度を統合した評価値を算出することを含み、
    前記候補区間が前記行動区間か否かを判定する処理は、算出した前記評価値が所定の閾値以上か否かを判定することを含む、
    ことを特徴とする請求項9に記載の異常送信プログラム。
  11. 前記人物は、工場にて作業する従業員であり、
    前記要素行動の種別は、前記従業員が製品を製造する際の異常な行動の種別である、
    ことを特徴とする請求項1に記載の異常送信プログラム。
  12. コンピュータが、
    人物を撮影した映像を取得し、
    取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定し、
    前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
    抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
    処理を実行することを特徴とする異常送信方法。
  13. 人物を撮影した映像を取得し、
    取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、
    前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
    抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
    制御部を有することを特徴とする情報処理装置。
JP2022136363A 2022-08-29 2022-08-29 異常送信プログラム、異常送信方法および情報処理装置 Pending JP2024032618A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2022136363A JP2024032618A (ja) 2022-08-29 2022-08-29 異常送信プログラム、異常送信方法および情報処理装置
US18/201,188 US20240071082A1 (en) 2022-08-29 2023-05-24 Non-transitory computer-readable recording medium, abnormality transmission method, and information processing apparatus
EP23175368.2A EP4332909A1 (en) 2022-08-29 2023-05-25 Abnormality transmission program, abnormality transmission method, and information processing apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022136363A JP2024032618A (ja) 2022-08-29 2022-08-29 異常送信プログラム、異常送信方法および情報処理装置

Publications (1)

Publication Number Publication Date
JP2024032618A true JP2024032618A (ja) 2024-03-12

Family

ID=86603749

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022136363A Pending JP2024032618A (ja) 2022-08-29 2022-08-29 異常送信プログラム、異常送信方法および情報処理装置

Country Status (3)

Country Link
US (1) US20240071082A1 (ja)
EP (1) EP4332909A1 (ja)
JP (1) JP2024032618A (ja)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6702045B2 (ja) * 2016-07-11 2020-05-27 沖電気工業株式会社 監視装置
EP3321844B1 (en) * 2016-11-14 2021-04-14 Axis AB Action recognition in a video sequence
US10713493B1 (en) * 2020-02-06 2020-07-14 Shenzhen Malong Technologies Co., Ltd. 4D convolutional neural networks for video recognition
JP2022082277A (ja) 2020-11-20 2022-06-01 富士通株式会社 検知プログラム、検知装置、および検知方法

Also Published As

Publication number Publication date
US20240071082A1 (en) 2024-02-29
EP4332909A1 (en) 2024-03-06

Similar Documents

Publication Publication Date Title
EP1801757A1 (en) Abnormal action detector and abnormal action detecting method
CN104471542B (zh) 用于状态监视中流动的传感器数据的分类的判别隐卡尔曼滤波器
JP2018142097A (ja) 情報処理装置、情報処理方法及びプログラム
US20110117537A1 (en) Usage estimation device
JP5277667B2 (ja) 障害分析システム、障害分析方法、障害分析サーバおよび障害分析プログラム
CN107133629B (zh) 图片分类方法、装置和移动终端
US11562567B2 (en) Observed-object recognition system and method
US20210365813A1 (en) Management computer, management program, and management method
US9752880B2 (en) Object linking method, object linking apparatus, and storage medium
JP2010231254A (ja) 画像解析装置、画像解析方法およびプログラム
TW202201275A (zh) 手部作業動作評分裝置、方法及電腦可讀取存儲介質
JP7446060B2 (ja) 情報処理装置、プログラム及び情報処理方法
US10437944B2 (en) System and method of modeling irregularly sampled temporal data using Kalman filters
CN114187561A (zh) 异常行为的识别方法、装置、终端设备及存储介质
JP2024032618A (ja) 異常送信プログラム、異常送信方法および情報処理装置
CN116959099A (zh) 一种基于时空图卷积神经网络的异常行为识别方法
JP2021162892A (ja) 評価装置、評価方法及び記憶媒体
JP7315022B2 (ja) 機械学習装置、機械学習方法、及び、機械学習プログラム
CN114098764A (zh) 数据处理方法、装置、电子设备和存储介质
JP2021064343A (ja) 行動認識装置、行動認識方法、及び情報生成装置
KR100924795B1 (ko) 입술움직임 영상 판별 방법 및 그 장치
CN110990236A (zh) 一种基于隐马尔科夫随机场的SaaS软件性能问题识别方法
WO2023188264A1 (ja) 情報処理システム
WO2024047715A1 (ja) 機械学習プログラム、機械学習方法および情報処理装置
WO2023233650A1 (en) Pose analyzing apparatus, pose analyzing method, and non-transitory computer-readable storage medium