JP2024032618A

JP2024032618A - 異常送信プログラム、異常送信方法および情報処理装置

Info

Publication number: JP2024032618A
Application number: JP2022136363A
Authority: JP
Inventors: 純也藤本; 源太鈴木; 宏樹増原
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2022-08-29
Filing date: 2022-08-29
Publication date: 2024-03-12
Also published as: US20240071082A1; EP4332909A1

Abstract

【課題】人物の作業の識別精度を向上させることを課題とする。【解決手段】行動認識装置は、人物を撮影した映像を取得し、取得をした映像を機械学習モデルに入力することで、映像を分割した区間ごとに人物が実施をした要素行動に異常であるか否かを判定する。行動認識装置は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。行動認識装置は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて送信する。【選択図】図２

Description

本発明は、異常送信プログラム、異常送信方法および情報処理装置に関する。

近年、製造業、運輸業、サービス業など様々な業種で、人員コストの削減、人為的エラーの削減、作業効率の向上などの様々な用途を行う機械学習モデルの導入が進んでいる。

特開２０２２－８２２７７号公報

ところで、上記機械学習モデルの一例として、映像から人物の作業を識別する機械学習モデルが知られている。このような機械学習モデルの開発業者は、機械学習モデルの導入、運用、導入先への監視ツール（Ｗｅｂアプリケーションなど）の提供などを一貫して行うことが多い。

しかしながら、上記一貫したサービス提供では、機械学習モデルの開発や更新と、Ｗｅｂアプリケーションの開発や更新を並行して行うこととなるので、機械学習モデルの更新頻度が少なく、人物の作業の識別精度を向上させることが難しい。

一つの側面では、人物の作業の識別精度を向上させることができる異常送信プログラム、異常送信方法および情報処理装置を提供することを目的とする。

第１の案では、異常送信プログラムは、コンピュータに、人物を撮影した映像を取得し、取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、処理を実行させることを特徴とする。

一実施形態によれば、人物の作業の識別精度を向上させることができる。

図１は、実施例１にかかるシステムの全体構成例を説明する図である。図２は、実施例１にかかる行動認識装置を説明する図である。図３は、実施例１にかかる各装置の機能構成を示す機能ブロック図である。図４は、本実施形態の比較例を説明するための図である。図５は、本実施形態の他の比較例を説明するための図である。図６は、比較例の問題点を説明するための図である。図７は、比較例の問題点を説明するための図である。図８は、比較例の問題点を説明するための図である。図９は、比較例の問題点を説明するための図である。図１０は、本実施形態の概要を説明するための図である。図１１は、行動区間検出部の機能ブロック図である。図１２は、第１モデルの一例である隠れセミマルコフモデルの概念図である。図１３は、第１隠れマルコフモデルの状態を例示する概念図である。図１４は、評価区間の設定を説明するための図である。図１５は、評価値の算出を説明するための図である。図１６は、本実施形態の効果を説明するための図である。図１７は、標準ルールを説明する図である。図１８は、異常送信の具体例１を説明する図である。図１９は、異常送信の具体例２を説明する図である。図２０は、異常送信の具体例３を説明する図である。図２１は、Ｗｅｂ画面の表示例を説明する図である。図２２は、異常検出時のＷｅｂ画面の表示例を説明する図である。図２３は、機械学習処理の一例を示すフローチャートである。図２４は、検出処理の一例を示すフローチャートである。図２５は、要素行動区間及び評価区間の分割の一例を示す図である。図２６は、異常検出処理の流れを示すフローチャートである。図２７は、行動認識装置のハードウェア構成例を説明する図である。図２８は、クラウドサーバのハードウェア構成例を説明する図である。

以下に、本願の開示する異常送信プログラム、異常送信方法および情報処理装置の実施例を図面に基づいて詳細に説明する。なお、この実施例によりこの発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

＜全体構成＞
図１は、実施例１にかかるシステムの全体構成例を説明する図である。図１に示すように、このシステムは、工場２００、行動認識装置１、クラウドサーバ１００を有するエッジクラウドシステムである。エッジに対応する行動認識装置１と、クラウドシステム上のクラウドサーバ１００とがネットワークＮを介して通信可能に接続される。なお、ネットワークＮには、有線や無線を問わず、ＬＴＥ（Long Term Evolution）回線やインターネットなどを用いることができる。

工場２００は、様々な製品を生成する工場であり、作業員が作業を行う各作業場にカメラ２０１が設置される。なお、工場の種類や生成される製品などは、限定されるものではなく、例えば加工品を製造する工場、商品の流通を管理する工場、自動車工場など様々な分野に適用することができる。

行動認識装置１は、工場２００に設定された複数のカメラ２０１それぞれと接続され、各カメラ２０１が撮像した映像（映像データ）を取得する。行動認識装置１は、カメラ２０１を識別する識別情報、カメラ２０１が設置される作業場所、当該カメラ２０１で撮像された映像などを対応付けてクラウドサーバ１００に送信する。

クラウドサーバ１００は、工場２００の状態、各作業員の作業などを監視するＷｅｂアプリケーションを、ユーザに提供するサーバ装置の一例である。クラウドサーバ１００は、カメラ２０１ごとの映像を行動認識装置１から収集し、各作業員の作業状態を閲覧可能なＷｅｂアプリケーションを提供する。

このような構成において、行動認識装置１は、工場２００にて作業をする従業員を撮影した映像を取得し、取得をした映像を機械学習モデルに入力をすることで、映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定する。そして、行動認識装置１は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。その後、行動認識装置１は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて、クラウドサーバ１００に送信する。

図２は、実施例１にかかる行動認識装置１を説明する図である。図２に示すように、行動認識装置１は、区間ごとに実施されるべき正しい要素行動もしくは標準的に実行される要素行動として「１．部品Ａはめ込み、２．部品Ａねじ止め・・・」などが規定された標準ルールを記憶する。

そして、行動認識装置１は、カメラ２に撮像された映像の分析を行い、「１．部品Ａはめ込み、２．部品Ｂはめ込み、・・・」の行動が実行されたことを特定する。

その後、行動認識装置１は、標準ルールの「２．部品Ａねじ止め」と、認識結果の「２．部品Ｂはめ込み」とが一致しないことから、認識結果の「２．部品Ｂはめ込み」に該当する映像と種別「認識結果の（２．部品Ｂはめ込み）」とを対応付けて、クラウドサーバ１００に送信する。

このように、行動認識装置１が、工場の作業員の行動認識を行って異常行動の検出およびクラウドサーバ１００への通知を実行し、クラウドサーバ１００が、作業員の作業状態および作業内容が特定できる映像をユーザに提供する。

＜機能構成＞
図３は、実施例１にかかる各装置の機能構成を示す機能ブロック図である。ここでは、行動認識装置１とクラウドサーバ１００との機能構成について説明する。

＜行動認識装置１の機能構成＞
図３に示すように、行動認識装置１は、通信部２、記憶領域４、制御部５を有する。通信部１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部２は、クラウドサーバ１００との間で各種情報の送受信を実行し、各カメラ２０１から映像を受信する。

記憶領域４は、各種データや制御部５が実行するプログラムを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶領域４は、第１モデル４１、第２モデル４２、標準ルール４３を記憶する。

制御部５は、行動認識装置１全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部５は、行動区間検出部１０と異常検出部５０を有する。なお、行動区間検出部１０と異常検出部５０は、例えばプロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

（行動区間検出部１０の説明）
まず、行動区間検出部１０について説明する。行動区間検出部１０は、人の映像から抽出された人の動作に関する時系列の特徴量に基づいて、映像から、検出対象の行動が発生した時間区間（以下、「行動区間」という）を検出する。本実施形態では、例えば、人が製品を製造する行動を検出対象の行動とし、製造の各工程を実施する際の人の動作の組み合わせを要素行動とする。すなわち、決まった順序で複数の工程を含む工場での作業のような、発生する順序に制約がある複数の要素行動を含む行動を検出対象の行動とする。

ここで、本実施形態の比較例として、手作業による映像の区間分割により、映像から行動区間を特定する方法が考えられる。この比較例は、例えば、図４の左図に示すように、一連の作業の様子をカメラで撮影した映像を取得し、図４の右図に示すように、取得された映像を目視することで、手作業で各要素行動の時間区間（以下、「要素行動区間」という）に分割する方法である。図４の例では、「部品Ａはめ込み」、「部品Ａねじ止め」、及び「カバー取付」がそれぞれ要素行動の一例である。このように、取得した映像毎に手作業で要素行動区間に分割する場合は、時間及び労力がかかる。

また、本実施形態の他の比較例として、図５の上図に示すように、１回分の映像に対して、手作業で要素行動区間を分割し、この分割結果を教師情報として、図５の下図に示すように、他の映像については、自動的に要素行動区間を分割することも考えられる。この場合、全ての映像に対して、手作業で要素行動区間を分割する場合に比べ、時間及び労力を省くことができる。

また、実際に取得される映像には、図６に示すように、検出対象の行動が複数回含まれる場合や、検出対象の行動以外の行動が含まれる場合がある。このような映像に対して、図５の上図に示すように手作業で要素行動区間を分割した行動区間の教師情報を適用して、映像内から所望の行動区間を推定し、そのうえで行動区間内を要素行動区間毎に分割することも考えられる。しかし、映像内にどのような動きが含まれるか不明であるため、すなわち、行動間の人の動作や、検出対象の行動以外の行動については教師情報によるモデル化がなされていないため、適切に検出対象の行動区間を推定することが困難である。

そこで、本実施形態の他の比較例として、映像に対して設定した候補区間毎に教師情報を適用し、候補区間内に教師情報が示す要素行動区間に対応する区間が含まれているか否かを評価することにより、候補区間が行動区間か否かを判定することが考えられる。例えば、図７に示すように、候補区間に含まれる時系列の特徴量（ｘ_１、ｘ_２、・・・、ｘ_１０）を、教師情報に基づいて分割することにより、要素行動区間を推定する。図７では、特徴量ｘ_１～ｘ_３の区間が要素行動Ａに対応する要素行動区間、特徴量ｘ_４～ｘ_８の区間が要素行動Ｂに対応する要素行動区間、特徴量ｘ_９～ｘ_１０の区間が要素行動Ｃに対応する要素行動区間として推定された例を示している。そして、要素行動区間毎に、特徴量と教師情報との適合度（適合度Ａ、Ｂ、Ｃ）として算出し、それらの評価値を統合した最終的な評価値が予め定めた閾値を超える場合に、その候補区間を検出対象の行動区間として検出することが考えられる。

要素行動区間の特徴量と教師情報との適合度が高い場合、候補区間内で要素行動区間の分割が正しく行われていることを表している。図８に示すように、検出対象の行動の実際の時間区間において、特徴量が教師情報に近い時間帯が大部分を占めいている場合、実際の時間区間と同様の候補区間においては、適合度が高い要素行動区間が多くなり、最終的な評価値も高くなる。

一方、図９に示すように、検出対象の行動の実際の時間区間において、特徴量が教師情報に近い時間帯がまばらな場合、すなわち、特徴量と教師情報との相違が大きい時間帯が多い場合、適合度が低い要素行動区間が多くなり、最終的な評価値も低～中程度となる。この場合には、その候補区間は検出対象の行動区間として判定されなくなる。しかし、候補区間内の特徴量と教師情報とが近い時間帯がまばらな候補区間であっても、特徴量と教師情報とが近い時間帯が存在するのであれば、行動区間として検出したい場合もある。

そこで、本実施形態に係る行動区間検出部は、図１０に示すように、特徴量と教師情報とが近い時間帯がまばらでも、粗く見れば特徴量と教師情報とが一致する時間帯が連続していることを利用して、候補区間が行動区間か否かを判定する。図１０の例では、候補区間を序盤、中盤、及び終盤に分割して評価した場合、それぞれの部分で特徴量が教師情報にある程度あっているため、候補区間全体としての評価値が高くなり、行動区間として検出され易くなる。一方、検出対象の行動とは異なる行動が発生している映像の時間区間を候補区間としている場合には、教師情報と同じ順番で要素行動が表れないため、部分的には特徴量と教師情報とが一致しても、一致する時間帯が連続し難い。そのため、図１０に示すように評価の粒度を粗くすることで、そのような候補区間は検出対象の行動区間として判定され難くなる。以下、本実施形態に係る行動区間検出部の詳細について説明する。

行動区間検出部１０は、機能的には、図１１に示すように、抽出部１１と、機械学習部２０と、検出部３０とを含む。機械学習部２０は、さらに、観測確率学習部２１と、遷移確率学習部２２と、構築部２３と、評価用学習部２４とを含む。検出部３０は、さらに、設定部３１と、推定部３２と、評価部３３と、判定部３４とを含む。また、行動区間検出部１０の所定の記憶領域には、第１モデル４１と、第２モデル４２とが記憶される。

抽出部１１は、機械学習時において、学習用映像を取得する。学習用映像は、人の行動を撮影した映像であって、検出対象の行動の時間区間を示す行動区間、及び検出対象の行動に含まれる要素行動の各々の時間区間を示す要素行動区間の区切りを示す教師情報が付与された映像である。抽出部１１は、学習用映像の行動区間の映像から人の動作に関する特徴量を算出し、時系列の特徴量を抽出する。また、抽出部１２は、検出時において、検出用映像を取得する。検出用映像は、人の行動を撮影した映像であって、検出対象の行動区間及び要素行動区間の区切りが未知の映像である。抽出部１１は、検出用映像からも同様に時系列の特徴量を抽出する。

抽出部１１による映像からの時系列の特徴量の抽出方法の一例について具体的に説明する。抽出部１１は、映像（学習用映像又は検出用映像）を構成する各フレームから人物検出技術を適用して人の領域（例えば、バウンディングボックス）を検出し、検出した同一人の領域をフレーム間で対応付けることにより追跡する。抽出部１１は、１つのフレームから人の領域が複数検出されている場合には、領域の大きさやフレーム内での領域の位置等に基づいて、判定対象の人の領域を特定する。抽出部１１は、各フレームから検出した人の領域内の画像を画像処理して、人の関節位置及びその連結関係等に基づいて姿勢情報を算出する。抽出部１１は、各フレームについて算出した姿勢情報に、フレームに対応付けられた時間情報を対応付けて並べた時系列の姿勢情報を作成する。

また、抽出部１１は、時系列の姿勢情報から身体の各部位についての時系列の運動情報を算出する。運動情報は、例えば、各部位の曲げの程度、曲げの速度等であってよい。各部位とは、例えば、肘、膝等であってよい。また、抽出部１１は、スライディングタイムウィンドウにより一定の時間間隔毎にウィンドウ内の運動情報を時間方向で平均化した値を要素とする特徴ベクトルを算出する。

抽出部１１は、機械学習時においては、抽出した時系列の特徴量と、学習用映像が持つ行動区間及び要素行動区間の区切りを示す教師情報とを教師ありデータとして機械学習部２０へ受け渡し、検出時においては、抽出した時系列の特徴量を設定部３１へ受け渡す。

機械学習部２０は、第１モデル４１及び第２モデル４２の各々を、抽出部１１から受け渡された教師ありデータを用いて機械学習を実行することにより生成する。

本実施形態では、検出対象の行動が発生した行動区間を推定する第１モデル４１の一例として、図１２に示すような隠れセミマルコフモデル（以下、「ＨＳＭＭ（Hidden Semi-Markov Model）」という）を構築する。ＨＳＭＭは、隠れマルコフモデル（以下、「ＨＭＭ（Hidden Markov Model）」という）のパラメータに加え、状態毎の継続時間の確率分布をパラメータとして持つ。

本実施形態のＨＳＭＭは、人の動作の各々を状態とする複数の第１ＨＭＭと、要素行動を状態とする第２ＨＭＭとを含む。図１２において、ｍ１、ｍ２、ｍ３は各動作に対応した状態であり、ａ１、ａ２、ａ３は各要素行動に対応した状態である。要素行動は、複数の動作の組み合わせであり、動作は、複数の姿勢の組み合わせである。パラメータを設定することで構築されたＨＳＭＭに、映像から抽出された人の動作に関する時系列の特徴量が与えられると、ＨＳＭＭは最適な要素行動区間を推定する。図１２において、ｄ１、ｄ２、ｄ３は要素行動区間の一例である。

ＨＭＭのパラメータには、観測確率及び遷移確率が存在する。図１２において、Ｏ１、Ｏ２、・・・、Ｏ８は観測確率の一例であり、遷移確率は状態間をつなぐ矢印に対応付けられている。観測確率とは、各状態において、ある観測データが観測される確率であり、遷移確率とは、ある状態から別の状態に遷移する確率である。遷移の順番が定まっている場合は、遷移確率は不要である。なお、動作の数及び要素行動の数、すなわち、第１ＨＭＭ及び第２ＨＭＭの数は例示であり、図１２に例示される数に限定されない。以下、機械学習部２０に含まれる観測確率学習部２１、遷移確率学習部２２、構築部２３、及び評価用学習部２４の各々について詳述する。

観測確率学習部２１は、以下に説明するように、教師ありデータから教師情報を除いた時系列の特徴量（以下、「教師なしデータ」ともいう）で第１モデル４１の一例であるＨＳＭＭを構成する各動作の観測確率を学習する。

本実施形態では、ある作業目標を達成するための限定された行動を検出対象の行動とする。このような行動は、例えば、工場のラインで行われる定型作業での行動であり、以下の性質を有する。
性質１：行動を構成する各要素行動の違いは、限定された複数の動作の組み合わせの違いである。
性質２：同じ行動を行う際に観測される複数の姿勢は類似している。

本実施形態では、性質１に基づいて、全ての行動が１つの動作群に含まれる動作で構成される。例えば、図１３に示すように、動作群には、例えば、３つの動作ｍ１１、ｍ１２、ｍ１３が含まれる。例えば、動作ｍ１１は「腕を上げる」、動作ｍ１２は「腕を降ろす」、動作ｍ１３は「腕を前に伸ばす」であってよい。動作群に含まれる動作の数は図１３の例に限定されない。また、各要素行動に含まれる動作の数も図１３の例に限定されない。

例えば、観測確率学習部２１は、混合ガウス分布（以下、「ＧＭＭ（ＧａｕｓｓｉａｎＭｉｘｔｕｒｅＭｏｄｅｌ）」という）モデルを用いて各動作の観測確率を算出する。具体的には、観測確率学習部２１は、抽出部１１から受け渡された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたＧＭＭのパラメータを推定する。そして、観測確率学習部２１は、パラメータが推定されたＧＭＭを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。

遷移確率学習部２２は、以下に説明するように、教師ありデータに基づいて、第１ＨＭＭで表される動作間の遷移確率を算出する。具体的には、遷移確率学習部２２は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を要素行動区間毎に振り分ける。そして、遷移確率学習部２２は、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、観測確率学習部２１で算出された各動作の観測確率を固定し、例えば、最尤推定やＥＭ（Ｅｘｐｅｃｔａｔｉｏｎ－Ｍａｘｉｍｉｚａｔｉｏｎａｌｇｏｒｉｔｈｍ）アルゴリズム等を使用して、動作間の遷移確率を算出する。

なお、教師ありデータの作成には時間及び労力がかかるため、遷移確率学習部２２は、種となる教師ありデータにノイズを付加する等して教師ありデータを水増ししてもよい。

構築部２３は、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。例えば、構築部２３は、教師情報で与えられた各要素行動区間の継続時間に対して所定の範囲の一様分布を、要素行動の継続時間の確率分布として設定する。

構築部２３は、観測確率学習部２１で算出された各動作の観測確率、遷移確率学習部２２で算出された動作間の遷移確率、及び設定した各要素行動の継続時間を使用して、例えば図１２に示すようなＨＳＭＭを第１モデル４１として構築する。第１モデル４１は、設定した継続時間後に教師情報で与えられた各要素行動の順番に、各要素行動に対応する第２ＨＭＭが遷移するＨＳＭＭである。図１２において、Ｏ１、Ｏ２、・・・、Ｏ８は、観測確率学習部２１で算出される観測確率を表す。また、要素行動ａ１、ａ２、ａ３の各々に含まれる動作ｍ１、ｍ２、及びｍ３間の矢印に対応付けられる遷移確率は、遷移確率学習部２２で算出される遷移確率に対応する。また、ｄ１、ｄ２、ｄ３は、各要素行動の継続時間を表す。構築部２３は、構築した第１モデル４１を所定の記憶領域に記憶する。

評価用学習部２４は、抽出部１１から受け渡された教師ありデータを用いて機械学習を実行することにより、評価区間の評価結果を推定するための第２モデル４２を生成する。評価区間は、要素行動区間を組み合わせた区間である。具体的には、評価用学習部２４は、抽出部１１から受け渡された教師ありデータの教師情報が示す要素行動区間に基づいて、評価区間同士で重複する要素行動区間を含むことを許容して、連続する２以上の要素行動区間を組み合わせて評価区間を設定する。

より具体的には、評価用学習部２４は、行動区間の時間に対して一定割合（例えば、２０％）以上の時間を含む要素行動区間の組み合わせを特定する。そして、評価用学習部２４は、前の組み合わせの開始時刻より、特定した組み合わせの開始時刻が行動区間の時間に対して一定割合（例えば、１０％）以上の時間離れるようにずらして評価区間を設定してよい。例えば、図１４に示すように、ある教師ありデータが示す行動区間が要素行動区間１、２、・・・、６に分割されているとする。この場合、評価用学習部２４は、一例として、下記に示すような評価区間を設定してよい。

要素行動区間１と要素行動区間２とを組み合わせた評価区間Ａ
要素行動区間２と要素行動区間３とを組み合わせた評価区間Ｂ
要素行動区間３と要素行動区間４とを組み合わせた評価区間Ｃ
要素行動区間４と要素行動区間５とを組み合わせた評価区間Ｄ
要素行動区間５と要素行動区間６とを組み合わせた評価区間Ｅ

また、評価用学習部２４は、教師ありデータが持つ教師情報に基づいて時系列の特徴量を評価区間毎に振り分ける。そして、評価用学習部２４は、各評価区間に振り分けられた時系列の特徴量を観測データとし、観測確率学習部２１で算出された各動作の観測確率を固定し、例えば、最尤推定やＥＭアルゴリズム等を使用して、動作間の遷移確率を算出する。これにより、評価用学習部２４は、評価区間に対応する時系列の特徴量が観測データとして入力された際に、その観測データの観測確率を出力する評価区間毎のＨＭＭを第２モデル４２として構築する。評価用学習部２４は、構築した第２モデル４２を所定の記憶領域に記憶する。

検出部３０は、抽出部１１から受け渡された時系列の特徴量に基づいて、検出用映像から、複数の動作で表される要素行動を所定の順序で複数含む検出対象の行動の時間区間である行動区間を検出する。以下、検出部３０に含まれる設定部３１、推定部３２、評価部３３、及び判定部３４の各々について詳述する。

設定部３１は、抽出部１１から受け渡された時系列の特徴量において、開始時刻を１時刻ずつ変動させ、開始時刻の各々について、終了時刻を開始時刻より時間的に後の時刻で１時刻ずつ変動させることで、複数の候補区間を設定する。なお、候補区間を設定するための開始時刻及び終了時刻の変動幅は１時刻ずつに限定されず、例えば、２時刻ずつ、あるいは３時刻ずつであってもよい。設定部３１は、設定した候補区間を推定部３２へ受け渡す。

推定部３２は、候補区間毎に、候補区間に対応する時系列の特徴量を第１モデル４１に入力することにより、候補区間における要素行動区間の各々を推定する。推定部３２は、推定した、各候補区間についての要素行動区間の情報を評価部３３へ受け渡す。

評価部３３は、候補区間毎に、推定部３２から受け渡された要素行動区間を組み合わせた評価区間に対応する時系列の特徴量を第２モデル４２に入力することにより、評価区間毎の評価結果を取得する。

具体的には、評価部３３は、第２モデル４２の構築の際に設定された評価区間と同様に要素行動区間を組み合わせた評価区間を候補区間に対して設定する。評価部３３は、評価区間に対応する時系列の特徴量を第２モデル４２である評価区間毎のＨＭＭにそれぞれ入力する。これにより、評価部３３は、評価区間の全種類についてＨＭＭが出力する観測確率を、該当の評価区間に対応する時系列の特徴量の第２モデル４２に対する適合度として推定する。評価部３３は、各評価区間について推定した、評価区間の全種類分の適合度を規格化した相対適合度を算出する。例えば、評価部３３は、評価区間の全種類分の適合度の合計が１になるように規格化する。そして、評価部３３は、評価区間の各々から、検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する評価区間の種類についての相対適合度を選択し、選択した相対適合度を統合して最終的な評価値を算出する。例えば、評価部３３は、選択した相対適合度の平均、中央値、総乗等を最終的な評価値として算出してよい。

例えば、図１５に示すように、評価区間Ａに特徴量ｘ_１～ｘ_５、評価区間Ｂに特徴量ｘ_３～ｘ_７、評価区間Ｃに特徴量ｘ_６～ｘ_９、評価区間Ｄに特徴量ｘ_８～ｘ_１２、評価区間Ｅに特徴量ｘ_１０～ｘ_１４が振り分けられるとする。この場合、評価部３３は、下記に示すように、各評価区間について適合度を算出する。

評価区間Ａ：Ｐ（ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５｜Ｘ）
評価区間Ｂ：Ｐ（ｘ_３，ｘ_４，ｘ_５，ｘ_６，ｘ_７｜Ｘ）
評価区間Ｃ：Ｐ（ｘ_６，ｘ_７，ｘ_８，ｘ_９｜Ｘ）
評価区間Ｄ：Ｐ（ｘ_８，ｘ_９，ｘ_１０，ｘ_１１，ｘ_１２｜Ｘ）
評価区間Ｅ：Ｐ（ｘ_１０，ｘ_１１，ｘ_１２，ｘ_１３，ｘ_１４｜Ｘ）
ただし、Ｘ＝Ａ，Ｂ，Ｃ，Ｄ，Ｅ

評価部３３は、例えば、Ｐ（ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５｜Ａ）を、下記（１）式に示すように算出する。ただし、ｓｔは、評価区間Ａの内部的な状態遷移に関しての各時刻の状態である。

なお、上記（１）式は、第２モデル４２を要素行動の順序を考慮するＨＭＭで構築している場合の例である。第２モデル４２を要素行動の順序を考慮しないＧＭＭで構築している場合、Ｐ（ｘ_１，ｘ_２，ｘ_３，ｘ_４，ｘ_５｜Ａ）は、下記（２）式となる。

そして、例えば、評価部３３は、図１５に示すように、評価区間毎に相対適合度を算出し、該当の評価区間についての相対適合度（図１５中で下線で示す値）を選択する。例えば、評価部３３は、評価区間Ａについては、Ａ、Ｂ、Ｃ、Ｄ、及びＥの各々について算出した相対適合度のうち、Ａについての相対適合度を選択する。評価部３３は、選択した相対適合度を平均して最終的な評価値を算出する。評価部３３は、算出した最終的な評価値を判定部３４へ受け渡す。

判定部３４は、候補区間内の評価区間の各々の評価結果に基づいて、候補区間が検出対象の行動区間か否かを判定する。具体的には、判定部３４は、評価部３３から受け渡された最終的な評価値が所定の閾値以上か否かを判定する。判定部３４は、最終的な評価値が所定の閾値以上の場合には、候補区間を行動区間として判定する。例えば、図１５の例において、閾値を０．５とすると、図１５に示す候補区間は検出対象の行動区間であると判定される。判定部３４は、検出用映像から、行動区間と判定された区間を検出し、検出結果として出力する。なお、行動区間であると判定された候補区間同士が重複している場合、判定部３４は、最終的な評価値が最も高い候補区間を優先的に行動区間として判定するようにしてよい。

上記のように、候補区間に対して、要素行動区間を組み合わせた評価区間を設定することで、例えば、図１６に示すように、特徴量と教師データとが近い時間帯がまばらな場合でも、相対適合度が高くなる評価区間が多くなり、最終的な評価値が高くなる。これにより、その候補区間が検出対象の行動区間として判定され易くなる。

（異常検出部５０の説明）
図３に示す異常検出部５０は、工場２００にて作業をする従業員を撮影した映像を取得し、取得をした映像を機械学習モデルに入力をすることで、映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定する。そして、異常検出部５０は、要素行動が異常であると判定されたときには、取得した映像の中から、要素行動が異常であると判定した区間の映像を抽出する。その後、異常検出部５０は、抽出された区間の映像と、異常であると判定された要素行動の種別とを対応づけて送信する。

例えば、異常検出部５０は、区間ごとに正常な要素行動が対応付けられた標準ルール４３と、映像を分割した区間ごとに従業員が実施をしたと特定された各要素行動とを比較し、標準ルール４３と一致しない要素行動が含まれる区間を、異常である区間と判定する。すなわち、検出対象は、人物が製品を製造する際の異常な行動である。

図１７は、標準ルール４３を説明する図である。図１７に示すように、標準ルール４３は、「作業現場、カメラ、作業内容、時間帯、要素行動」が対応付けられた情報である。「作業現場」は、対象となる作業の場所を示し、「カメラ」は、作業現場に設置されるカメラ２０１を識別する識別子である。「作業内容」は、対象となる作業内容を示し、「時間帯」は、対象となる作業が行われる時間帯を示し、「要素行動」は、製造の各工程を実施する際の人物の動作の組み合わせであり、区間ごとに実行されるべき正常な要素行動の順序である。

図１７の例では、カメラＡ１が設置される作業現場Ａでは、９：００から１２：００の時間帯に、製品Ｚの組立を行う「要素行動１」、「要素行動２」、「要素行動３」の各要素行動が順次行われることが予め設定されている。

なお、図１７に示すように、標準ルール４３は、一例として、区間ごとに実施されるべき正常な要素行動の順序が規定された情報である。この場合、異常検出部５０は、映像を分割した区間ごとに、標準ルール４３に規定される要素行動の順序と、映像から特定された従業員の要素行動の順序とを比較し、要素行動の順序が異なる区間を、異常である区間と判定する。なお、正常な要素行動の順序は、必ずしも複数の要素行動を含んでいなくてもよく、１つの要素行動であってもよい。

そして、異常検出部５０は、検出対象の各要素行動が推定されると、作業現場、カメラ、時間帯などを用いて、標準ルール４３から正しい要素行動を特定し、推定された各要素行動と正しい要素行動との比較により、異常検出を実行する。その後、異常検出部５０は、クラウドサーバ１００とのセッションを確立し、当該セッションを用いて、異常が検出された区間、当該区間に該当する異常と検出された要素行動の種別などをクラウドサーバ１００に通知する。なお、異常検出部５０は、区間の映像と異常であると判定された要素行動の種別とをクラウドサーバ１００に送信する際に、クラウドサーバ１００にユーザから指定された要素行動の種別に基づいて区間の映像を分類して表示させる指示も送信することができる。

ここで、異常検出部５０は、行動区間検出部１０による処理の結果を用いて、異常検出を実行するが、行動区間検出部１０による処理過程のいくつかのタイミングで、異常検出および異常送信を行うことができる。

（パターン１）
まず、異常検出部５０が、第１モデル４１による処理結果を用いて、異常検出および異常送信を実行する例を説明する。図１８は、異常送信の具体例１を説明する図である。図１８に示すように、行動区間検出部１０は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第１モデル４１により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動１から６が含まれている。

そこで、異常検出部５０は、標準ルール４３に記憶される正常な要素行動「要素行動１→要素行動３→要素行動２→要素行動４→要素行動５→要素行動６」と、推定された各要素行動「要素行動１→要素行動２→要素行動３→要素行動４→要素行動５→要素行動６」とを比較する（図１８の（１）参照）。そして、異常検出部５０は、推定された要素行動「要素行動２→要素行動３」が正常な要素行動「要素行動３→要素行動２」と異なることを検出する（図１８の（２）参照）。

この結果、異常検出部５０は、異常が検出されたので、異常区間の映像および異常情報をクラウドサーバ１００に送信する（図１８の（３）参照）。例えば、異常検出部５０は、異常検出を含む映像、当該映像における異常が検出された区間「01：00：10－01：50：15」、異常と検出された要素行動（異常行動）の種別「部品Ａねじ止め、部品Ｂねじ止め」、標準ルール４３に登録されている正常行動「部品Ａねじ止め、部品Ａねじ接着」などをクラウドサーバ１００に送信する。

このようにすることで、異常検出部４０は、推定された各要素行動のうち、間違った行動が行われている可能性が高い要素行動をクラウドサーバ１００に通知できる。

（パターン２）
次に、異常検出部５０が、第２モデル４２による処理結果を用いて、異常検出および異常送信を実行する例を説明する。図１９は、異常送信の具体例２を説明する図である。図１９に示すように、行動区間検出部１０は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第１モデル４１により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動１から６が含まれている。

その後、行動区間検出部１０は、評価区間ごとの評価値を算出し、評価値および閾値に基づいて候補区間が行動区間か否かを判定する。

そこで、異常検出部５０は、評価区間Ａ「要素行動１、要素行動２」、評価区間Ｂ「要素行動２、要素行動３」、評価区間Ｃ「要素行動３、要素行動４」、評価区間Ｄ「要素行動４、要素行動５」、評価区間Ｄ「要素行動５、要素行動６」のうち、行動区間検出部１０により相対適合度が閾値以下と判定された「評価区間Ｂ」を異常と検出する（図１９の（１）参照）。

この結果、異常検出部５０は、異常と判定された評価区間Ｂに関する情報をクラウドサーバ１００に送信する（図１９の（２）参照）。例えば、異常検出部５０は、評価区間Ｂを含む映像、評価区間Ｂの情報「01：15：30－01：50：40」、相対適合度（低）などをクラウドサーバ１００に送信する。

このようにすることで、異常検出部４０は、各候補区間のうち、評価の低い区間およびその情報をクラウドサーバ１００に送信できるので、区間の特定手法の改善、評価が低い区間の要素行動の集約などを実行することができる。

（パターン３）
次に、異常検出部５０が、第２モデル４２による処理結果により各評価区間が正常な区間と特定された場合に、異常検出および異常送信を実行する例を説明する。図２０は、異常送信の具体例３を説明する図である。図２０に示すように、行動区間検出部１０は、検出用の映像から特徴量を抽出し、候補区間を設定した後、候補区間に対応する特徴量および第１モデル４１により要素行動区間を推定する。ここで推定される要素行動区間には、要素行動１から６が含まれている。

その後、行動区間検出部１０は、評価区間ごとの評価値を算出し、評価値および閾値に基づいて候補区間が行動区間か否かを判定する。そして、行動区間検出部１０は、評価区間Ａ「要素行動１、要素行動２」、評価区間Ｂ「要素行動２、要素行動３」、評価区間Ｃ「要素行動３、要素行動４」、評価区間Ｄ「要素行動４、要素行動５」、評価区間Ｄ「要素行動５、要素行動６」の各評価値に基づき、最終的な評価値を「高」と判定する。この結果、行動区間検出部１０は、各評価区間内の要素行動１～６およびその順序を検出結果と特定する。

そこで、異常検出部５０は、行動区間検出部１０による最終的な評価値を「高」を参照し（図２０の（１）参照）、行動区間検出部１０の推定結果を信用し（図２０の（２）参照）、要素行動１～６およびその順序を取得する（図２０の（３）参照）。

そして、異常検出部５０は、標準ルール４３に記憶される正常な要素行動「要素行動１→要素行動３→要素行動２→要素行動４→要素行動５→要素行動６」と、推定された各要素行動「要素行動１→要素行動２→要素行動３→要素行動４→要素行動５→要素行動６」とを比較する（図２０の（４）参照）。異常検出部５０は、推定された要素行動「要素行動２→要素行動３」が正常な要素行動「要素行動３→要素行動２」と異なることを検出する（図２０の（５）参照）。

この結果、異常検出部５０は、異常が検出されたので、異常区間の映像および異常情報をクラウドサーバ１００に送信する（図２０の（６）参照）。このようにすることで、異常検出部４０は、評価対象として正しい要素行動を前提に、間違った行動が行われている可能性が高い要素行動をクラウドサーバ１００に通知できる。

＜クラウドサーバ１００の機能構成＞
図３に示すように、クラウドサーバ１００は、通信部１０１、表示部１０２、記憶領域１０３、制御部１０５を有する。

通信部１０１は、他の装置との間の通信を制御する処理部であり、例えば通信インタフェースなどにより実現される。例えば、通信部１０１は、行動認識装置１との間で各種情報の送受信を実行する。

表示部１０２は、各種情報を表示出力する処理部であり、例えばディスプレイやタッチパネルなどにより実現される。例えば、表示部１０２は、映像に関する情報や異常と判定された要素行動に関する情報などを閲覧するためのＷｅｂ画面を表示する。

記憶領域１０３は、各種データや制御部１０５が実行するプログラムを記憶する処理部であり、例えばメモリやハードディスクなどにより実現される。この記憶領域１０３は、標準ルール１０４を記憶する。なお、標準ルール１０４は、標準ルール４３と同様なので詳細な説明は省略する。

制御部１０５は、クラウドサーバ１００全体を司る処理部であり、例えばプロセッサなどにより実現される。この制御部１０５は、受信部１０６と表示出力部１０７を有する。なお、受信部１０６と表示出力部１０７は、例えばプロセッサが有する電子回路やプロセッサが実行するプロセスなどにより実現される。

受信部１０６は、行動認識装置１から各種情報を受信する処理部である。例えば、受信部１０６は、行動認識装置１からのセッション要求を受信すると、行動認識装置１からのセッション確立を受け入れて、セッションを確立する。そして、受信部１０６は、セッションを用いて行動認識装置１から送信される異常行動に関する情報を受信し、記憶領域１０４等に格納する。

表示出力部１０７は、ユーザからの要求に応じて、映像に関する情報や異常と判定された要素行動に関する情報などを閲覧するためのＷｅｂ画面を表示出力する処理部である。具体的には、表示出力部１０７は、工場の管理者などから表示要求を受信すると、Ｗｅｂ画面を出力し、Ｗｅｂ画面を介して様々な情報の生成および出力を実行する。

図２１は、Ｗｅｂ画面の表示例を説明する図である。図２１に示すように、表示出力部１０７は、作業管理サービスのＷｅｂ画面１１０を表示出力する。Ｗｅｂ画面１１０は、映像が表示される映像表示領域１２０と行動認識装置１による行動認識結果が表示される行動認識結果領域１３０とを含み、作業場選択ボタン１４０やカメラ選択ボタン１５０により、映像表示領域１２０内の映像や行動認識結果領域１３０内の行動認識結果が切り替えられる。

映像表示領域１２０は、表示する時間を選択できる選択バー１２１を有し、ユーザが選択バー１２１を動かすことにより、映像表示領域１２０に表示される映像の時間帯を進めたり、巻き戻したりすることができる。行動認識結果領域１３０には、行動認識装置１により認識された各行動と各行動が写っている映像の時間帯（開始と終了）とを含む認識結果１３１が表示される。

表示出力部１０７は、映像を映像表示領域１２０に表示し、表示する映像内で要素行動が検出された時間になると、行動認識結果領域１３０の認識結果１３１に「行動、開始、終了」のレコードを生成して要素行動の情報を出力する。

ここで、表示出力部１０７は、異常な要素行動が検出された場合は、行動認識結果領域１３０の認識結果１３１に、異常とわかる形式で表示を実行する。図２２は、異常検出時のＷｅｂ画面の表示例を説明する図である。図２２に示すように、表示出力部１０７は、認識結果１３１内に、異常と検出された要素行動を表示する際に、バツ印などもあわせて表示することで、ユーザへの視認性を向上させる。また、表示出力部１０７は、ユーザからの要求に応じて、作業現場で行われる行動ごとの異常検出回数を計数し、グラフなどで履歴情報１３２を表示することもできる。

＜処理の流れ＞
次に、本実施形態に係る行動認識装置１の作用について説明する。行動区間検出部１０に学習用映像が入力され、第１モデル４１及び第２モデル４２の機械学習の実行が指示されると、行動区間検出部１０において、図１２３に示す機械学習処理が実行される。また、行動区間検出部１０に検出用映像が入力され、検出対象の行動区間の検出の実行が指示されると、行動区間検出部１０において、図２４に示す検出処理が実行される。なお、機械学習処理及び検出処理は、開示の技術の行動区間検出方法の一例である。

まず、図２３に示す機械学習処理について説明する。

ステップＳ１１で、抽出部１１が、行動区間検出部１０に入力された学習用映像を取得し、学習用映像の行動区間の映像から人の動作に関する時系列の特徴量を抽出する。

次に、ステップＳ１２で、観測確率学習部２１が、上記ステップＳ１１で抽出された特徴量をクラスタリングすることにより、動作の数分のガウス分布が混合されたＧＭＭのパラメータを推定する。そして、観測確率学習部２１が、パラメータが推定されたＧＭＭを構成する各ガウス分布を各動作の観測確率を表す確率分布として割り当てる。

次に、ステップＳ１３で、遷移確率学習部２２が、上記ステップＳ１１で抽出された時系列の特徴量を、教師ありデータが持つ教師情報が示す要素行動区間毎に振り分ける。次に、ステップＳ１４で、遷移確率学習部２２が、各要素行動区間に振り分けられた時系列の特徴量を観測データとし、上記ステップＳ１２で算出された各動作の観測確率を固定し、動作間の遷移確率を算出する。

次に、ステップＳ１５で、構築部２３が、教師情報で与えられた各要素行動区間の継続時間に基づいて、要素行動毎に継続時間の確率分布を設定する。次に、ステップＳ１６で、構築部２３が、上記ステップＳ１２で算出された各動作の観測確率、上記ステップＳ１４で算出された動作間の遷移確率、及び上記ステップＳ１５で設定した各要素行動の継続時間を使用しＨＳＭＭを、第１モデル４１として構築する。そして、構築部２３が、構築した第１モデル４１を所定の記憶領域に記憶する。

次に、ステップＳ１７で、評価用学習部２４が、教師ありデータの教師情報が示す要素行動区間に基づいて、評価区間同士で重複する要素行動区間を含むことを許容して、連続する２以上の要素行動区間を組み合わせて評価区間を設定する。次に、ステップＳ１８で、評価用学習部２４が、教師ありデータが持つ教師情報に基づいて時系列の特徴量を評価区間毎に振り分ける。

次に、ステップＳ１９で、評価用学習部２４が、各評価区間に振り分けられた時系列の特徴量を観測データとし、上記ステップＳ１２で算出された各動作の観測確率を固定し、動作間の遷移確率を算出することにより、評価区間毎の観測確率を算出する。これにより、評価用学習部２４が、評価区間に対応する時系列の特徴量が観測データとして入力された際に、その観測データの観測確率を出力する評価区間毎のＨＭＭを第２モデル４２として構築する。そして、評価用学習部２４が、構築した第２モデル４２を所定の記憶領域に記憶し、機械学習処理は終了する。

次に、図２４に示す検出処理について説明する。

ステップＳ２１で、抽出部１１が、行動区間検出部１０に入力された検出用映像を取得し、検出用映像から人の動作に関する時系列の特徴量を抽出する。次に、ステップＳ２２で、設定部３１が、上記ステップＳ２１で抽出された時系列の特徴量において、開始時刻を１時刻ずつ変動させ、開始時刻の各々について、終了時刻を開始時刻より時間的に後の時刻で１時刻ずつ変動させることで、複数の候補区間を設定する。以下のステップＳ２３～Ｓ２５の処理は、候補区間毎に実行される。

次に、ステップＳ２３で、推定部３２が、候補区間に対応する時系列の特徴量を第１モデル４１に入力することにより、候補区間における要素行動区間の各々を推定する。次に、ステップＳ２４で、評価部３３が、第２モデル４２の構築の際に設定された評価区間と同様に要素行動区間を組み合わせた評価区間を候補区間に対して設定する。そして、評価部３３が、評価区間に対応する時系列の特徴量を第２モデル４２である評価区間毎のＨＭＭにそれぞれ入力することにより、各評価区間に対応する時系列の特徴量の第２モデル４２に対する評価区間の全種類について適合度として推定する。そして、評価部３３が、各評価区間の各々について推定した、評価区間の全種類分の適合度を規格化した相対適合度を算出する。さらに、評価部３３が、各評価区間から、検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する評価区間の種類についての相対適合度を選択し、選択した相対適合度を統合して最終的な評価値を算出する。

次に、ステップＳ２５で、判定部３４が、上記ステップＳ２４で算出された最終的な評価値が所定の閾値以上か否かを判定することにより、候補区間が行動区間か否かを判定する。次に、ステップＳ２６で、判定部３４が、検出用映像から、行動区間と判定された区間を検出し、検出結果として出力し、検出処理は終了する。

以上説明したように、本実施形態に係る行動区間検出部１０は、人の行動を撮影した映像から時系列の特徴量を抽出する。また、行動区間検出部１０は、映像の一部の区間である候補区間に対応する時系列の特徴量を第１モデルに入力することにより、候補区間における要素行動区間を推定する。そして、行動区間検出部１０は、要素行動区間を組み合わせた評価区間に対応する時系列の特徴量を第２モデルに入力することにより、評価区間毎の評価結果を取得し、評価区間の各々の評価結果に基づいて、候補区間が検出対象の行動区間か否かを判定する。これにより、人の映像において、指定した行動が発生した時間区間を適切かつ容易に検出することができる。すなわち、本実施形態に係る行動認識装置１は、コンピュータの機能を改善するものである。

また、要素行動区間と評価区間とを同一とし、同じモデルを利用した場合、要素行動区間を推定する際に、候補区間の中で適合度が大きくなるように推定されるため、誤った候補区間でも偶発的に高評価になってしまい易い。一方、本実施形態に係る行動認識装置１では、要素行動区間を推定するための第１モデルと、評価値を算出するための第２モデルとが異なることで、検出対象の行動ではない時間に対応する候補区間、すなわち、低評価となって欲しい候補区間が高評価になり難い。これは、要素行動区間の推定と評価値の算出とで異なるモデルを利用することで、要素行動区間の推定は、直接的に適合度を大きくすることを目的としないためである。

また、要素行動の境界で動きが切り替わることが多いため、要素行動区間を組み合わせた区間を評価区間とすることで、評価区間の境界についても動きが切り替わる時間となる。これにより、第２モデルを構成する各評価区間のモデル（上記実施形態の例では、ＨＭＭ）が表現する要素行動の組み合わせが明確になる。すなわち、評価区間のモデル間の差が明確になる。そのため、より適切な評価値を算出することができる。

また、各評価区間は要素行動区間の重複を許容することで、評価指標として粗くなり過ぎることを防ぎ、特徴量が教師データに近い時間帯が候補区間内にまんべんなく発生している場合の方がより高評価とすることができる。例えば、図１６の例で、要素行動区間の重複を許さず、評価区間Ａ、Ｃ、及びＥを設定したとする。この場合、要素行動区間２及び３で、特徴量が教師データに近い時間帯が発生していない分、評価区間Ａ及びＣが低評価となり易く、３つの評価区間のうち２つが低評価となり、全体として低評価となる可能性がある。一方、要素行動区間の重複を許容して図１６に示すように評価値Ａ、Ｂ、Ｃ、Ｄ、及びＥを設定した場合、５つの評価区間のうち低評価となるのは評価区間Ｂのみであり、全体としての評価は、要素行動区間の重複を許さない場合に比べ、高評価とすることができる。

なお、上記実施形態では、第１モデルがＨＳＭＭ、第２モデルがＨＭＭである場合について説明したが、これに限定されない。各モデルとしては、ニューラルネットワークを利用したモデルなど、他の機械学習モデルを適用してもよい。

また、上記実施形態において、第１モデルの機械学習を実行する際に、要素行動区間を時間的に分割し、第２モデルの機械学習を実行する際に、評価区間を時間的に分割してもよい。この場合、分割した各区間について動作の遷移確率をモデル化し、分割した区間に対応する状態は確率的ではなく決定的な順番で出現するように全体をモデル化する。この際、図２５に示すように、要素行動区間と評価区間とで、分割後の区間が異なるように、要素行動区間及び評価区間の各々を分割する分割数を決定する。これにより、第１モデルと第２モデルとは、異なる区間で機械学習が実行されたモデルの集まりとなり、第１モデルと第２モデルとの差をより顕著にすることができる。

次に、図２６に示す異常検出処理について説明する。図２６は、異常検出処理の流れを示すフローチャートである。

図２６に示すように、異常検出部５０は、行動区間検出部１０により要素行動の認識が終了すると（Ｓ１０１：Ｙｅｓ）、判定対象とする行動区間を特定する（Ｓ１０２）。続いて、異常検出部５０は、行動区間内で認識された要素行動を取得し（Ｓ１０３）、認識された要素行動と標準ルール４３とを比較する（Ｓ１０４）。

その後、異常検出部５０は、相違点がある場合（Ｓ１０５：Ｙｅｓ）、相違する行動の箇所を異常結果として検出し（Ｓ１０６）、異常結果と異常結果が含まれる映像とをクラウドサーバ１００に送信する（Ｓ１０７）。

上述したように、行動認識装置１が、工場の作業員の行動認識を行って異常行動の検出およびクラウドサーバ１００への通知を実行し、クラウドサーバ１００が、作業員の作業状態および作業内容が特定できる映像をユーザに提供する。この結果、行動認識装置１とＷｅｂアプリケーションとを別々の管理者が各々でバージョンアップ等を実行できるので、械学習モデルの更新頻度を増加させ、人物の作業の識別精度を向上させることができる。

さて、これまで本発明の実施例について説明したが、本発明は上述した実施例以外にも、種々の異なる形態にて実施されてよいものである。

（数値等）
上記実施例で用いた数値例、モデル数、要素行動、特徴量等は、あくまで一例であり、任意に変更することができる。また、各フローチャートで説明した処理の流れも矛盾のない範囲内で適宜変更することができる。

（システム）
上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。例えば、行動区間検出部１０と異常検出部５０とを同一の装置で実現することもできる。

さらに、各装置にて行なわれる各処理機能は、その全部または任意の一部が、ＣＰＵおよび当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

（行動認識装置１のハードウェア）
図２７は、行動認識装置１のハードウェア構成例を説明する図である。図２７に示すように、行動認識装置１は、通信装置１ａ、ＨＤＤ（Hard Disk Drive）１ｂ、メモリ１ｃ、プロセッサ１ｄを有する。また、図２７に示した各部は、バス等で相互に接続される。なお、これら以外にもディスプレイやタッチパネルなどを有することができる。

通信装置１ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１ｂは、図３に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１ｄは、図３に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１ｂ等から読み出してメモリ１ｃに展開することで、図３等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、行動認識装置１が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１ｄは、行動区間検出部１０と異常検出部５０等と同様の機能を有するプログラムをＨＤＤ１ｂ等から読み出す。そして、プロセッサ１ｄは、行動区間検出部１０と異常検出部５０等と同様の処理を実行するプロセスを実行する。

このように、行動認識装置１は、プログラムを読み出して実行することで行動認識方法を実行する情報処理装置として動作する。また、行動認識装置１は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、行動認識装置１によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ－ＲＯＭ、ＭＯ（Magneto－Optical disk）、ＤＶＤ（Digital Versatile Disc）などのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

（クラウドサーバ１００のハードウェア）
図２８は、クラウドサーバ１００のハードウェア構成例を説明する図である。図２８に示すように、クラウドサーバ１００は、通信装置１００ａ、ＨＤＤ１００ｂ、表示装置１００ｃ、メモリ１００ｄ、プロセッサ１００ｅを有する。また、図２８に示した各部は、バス等で相互に接続される。なお、これら以外にもディスプレイやタッチパネルなどを有することができる。

通信装置１００ａは、ネットワークインタフェースカードなどであり、他の装置との通信を行う。ＨＤＤ１００ｂは、図３に示した機能を動作させるプログラムやＤＢを記憶する。表示装置１００ｃは、Ｗｅｂページなどの各種情報を表示出力する。

プロセッサ１００ｅは、図３に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１００ｂ等から読み出してメモリ１００ｄに展開することで、図３等で説明した各機能を実行するプロセスを動作させる。例えば、このプロセスは、クラウドサーバ１００が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１００ｅは、受信部１０６と表示出力部１０７等と同様の機能を有するプログラムをＨＤＤ１００ｂ等から読み出す。そして、プロセッサ１００ｅは、受信部１０６と表示出力部１０７等と同様の処理を実行するプロセスを実行する。

このように、クラウドサーバ１００は、プログラムを読み出して実行することで表示方法を実行する情報処理装置として動作する。また、クラウドサーバ１００は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、クラウドサーバ１００によって実行されることに限定されるものではない。例えば、他のコンピュータまたはサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、上記実施例が同様に適用されてもよい。

このプログラムは、インターネットなどのネットワークを介して配布されてもよい。また、このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ－ＲＯＭ、ＭＯ、ＤＶＤなどのコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行されてもよい。

１行動認識装置
２通信部
４記憶領域
４１第１モデル
４２第２モデル
４３標準ルール
５制御部
１０行動区間検出部
５０異常検出部
１００クラウドサーバ
１０１通信部
１０２表示部
１０３記憶領域
１０４標準ルール
１０５制御部
１０６受信部
１０７表示出力部

Claims

コンピュータに、
人物を撮影した映像を取得し、
取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、
前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
処理を実行させることを特徴とする異常送信プログラム。
前記送信する処理は、
前記要素行動が異常であると判定されたときには、サーバ装置との間でセッションを確立し、
確立された前記セッションを用いて、前記区間の映像と、異常であると判定された前記要素行動の種別とを、前記サーバ装置に送信する、
ことを特徴とする請求項１に記載の異常送信プログラム。
前記送信する処理は、
前記区間の映像と前記異常であると判定された前記要素行動の種別とを前記サーバ装置に送信する際に、ユーザから指定された要素行動の種別に基づいて前記区間の映像を分類して表示させる指示も前記サーバ装置に送信する、
ことを特徴とする請求項２に記載の異常送信プログラム。
前記判定する処理は、
区間ごとに正常な要素行動が対応付けられた標準ルールと、前記映像を分割した区間ごとに前記人物が実施をしたと特定された各要素行動とを比較し、
前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
ことを特徴とする請求項１に記載の異常送信プログラム。
前記標準ルールは、
区間ごとに実施されるべき正常な要素行動の順序が規定された情報であり、
前記判定する処理は、
前記映像を分割した区間ごとに、前記標準ルールに規定される要素行動の順序と、前記映像から特定された従業員の要素行動の順序とを比較し、
前記要素行動の順序が異なる区間を、前記異常である区間と判定する、
ことを特徴とする請求項４に記載の異常送信プログラム。
前記機械学習モデルは、
第１の機械学習モデルと第２の機械学習モデルを有し、
前記判定する処理は、
人の行動を撮影した映像から時系列の特徴量を抽出し、
前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第１の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
前記要素行動区間を組み合わせた評価区間に対応する前記時系列の特徴量を前記第２の機械学習モデルに入力することにより、前記評価区間毎の評価結果を取得し、
前記候補区間内の前記評価区間の各々の評価結果に基づいて、前記候補区間が検出対象の行動の時間区間を示す行動区間か否かを判定する、
ことを特徴とする請求項１に記載の異常送信プログラム。
前記要素行動は、製造の各工程を実施する際の前記人物の動作の組み合わせであり、
前記検出対象は、前記人物が製品を製造する際の異常な行動である、
ことを特徴とする請求項６に記載の異常送信プログラム。
前記機械学習モデルは、
第１の機械学習モデルと第２の機械学習モデルを有し、
前記判定する処理は、
人の行動を撮影した映像から時系列の特徴量を抽出し、
前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第１の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
推定された前記要素行動区間と、記憶部に記憶された区間ごとに正常な要素行動が対応付けられた標準ルールとを比較し、
前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
ことを特徴とする請求項１に記載の異常送信プログラム。
前記機械学習モデルは、
第１の機械学習モデルと第２の機械学習モデルを有し、
前記判定する処理は、
人の行動を撮影した映像から時系列の特徴量を抽出し、
前記映像の一部の区間である候補区間に対応する前記時系列の特徴量を前記第１の機械学習モデルに入力することにより、前記候補区間における要素行動の各々の時間区間を示す要素行動区間を推定し、
前記要素行動区間を組み合わせた評価区間に対応する前記時系列の特徴量を前記第２の機械学習モデルに入力することにより、前記評価区間毎の評価結果を取得し、
前記候補区間内の前記評価区間の各々の評価結果に基づいて、前記候補区間が検出対象の行動の時間区間を示す行動区間か否かを判定し、
判定された前記行動区間と、記憶部に記憶された区間ごとに正常な要素行動が対応付けられた標準ルールとを比較し、
前記標準ルールと一致しない要素行動が含まれる区間を、前記異常である区間と判定する、
ことを特徴とする請求項１に記載の異常送信プログラム。
前記判定する処理は、
前記評価区間に対応する前記時系列の特徴量と、前記第２の機械学習モデルが示す教師情報との適合度を、前記評価区間毎に評価区間の全種類について推定し、
前記評価区間の各々について推定された前記評価区間の全種類分の適合度を規格化し、
前記評価区間の各々から、前記検出対象の行動に含まれる順番に応じた要素行動に対応する要素行動区間の組み合わせに対応する種類についての、規格化された適合度を選択し、
前記評価区間の各々から選択した前記規格化された適合度を統合した評価値を算出することを含み、
前記候補区間が前記行動区間か否かを判定する処理は、算出した前記評価値が所定の閾値以上か否かを判定することを含む、
ことを特徴とする請求項９に記載の異常送信プログラム。
前記人物は、工場にて作業する従業員であり、
前記要素行動の種別は、前記従業員が製品を製造する際の異常な行動の種別である、
ことを特徴とする請求項１に記載の異常送信プログラム。
コンピュータが、
人物を撮影した映像を取得し、
取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに従業員が実施をした要素行動に異常であるか否かを判定し、
前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
処理を実行することを特徴とする異常送信方法。
人物を撮影した映像を取得し、
取得をした前記映像を機械学習モデルに入力することで、前記映像を分割した区間ごとに前記人物が実施をした要素行動に異常であるか否かを判定し、
前記要素行動が異常であると判定されたときには、取得した前記映像の中から、前記要素行動が異常であると判定した区間の映像を抽出し、
抽出された前記区間の映像と、異常であると判定された前記要素行動の種別とを対応づけて送信する、
制御部を有することを特徴とする情報処理装置。