JP6693710B2

JP6693710B2 - 映像解析装置及び映像解析方法

Info

Publication number: JP6693710B2
Application number: JP2015125102A
Authority: JP
Inventors: 尚英荒尾; 明大岡; 雅明斉藤; 俊一角谷
Original assignee: Broadleaf Co Ltd
Current assignee: Broadleaf Co Ltd
Priority date: 2015-06-22
Filing date: 2015-06-22
Publication date: 2020-05-13
Anticipated expiration: 2035-06-22
Also published as: JP2017010276A

Description

本発明は、映像解析装置及び映像解析方法に係り、特に、作業を撮影した音入り映像を解析する映像解析装置及び映像解析方法に関する。

作業効率の向上を図るために作業を撮影し、その映像を解析することは、既に広く行われている。上記の映像解析では、作業の映像を、当該作業を構成する複数の動作の各々の映像に区切り、それぞれの映像の長さ（すなわち、各動作の所要時間）を特定する。そして、特定した所要時間に基づいて、各動作に対する改善の要否を判断する。

各動作の所要時間を特定する処理について説明すると、当該処理は、かつて解析者が作業の映像を見ながら各動作の区切り目を決定し、区切り目間の時間をストップウォッチ等の計器で実測することによって行われていた。一方、近年では、コンピュータを利用した映像解析技術（例えば、特許文献１に記載の技術）によって各動作の所要時間をより容易に特定することが可能となった。

特許文献１に記載の映像解析技術では、解析者がコンピュータのモニタで作業の映像を見ながら各動作の開始時点や終了時点を見つけ、それぞれの時点にてコンピュータのマウスをクリックする。コンピュータは、クリック操作が行われた時点を各動作の開始時点や終了時点として記憶するようになる。これにより、映像の時間軸における各動作の開始時点及び終了時点がコンピュータに記憶されるようになる。さらに、コンピュータは、各動作の開始時点と終了時点との時間差を求め、その結果を当該各動作の所要時間とする。

国際公開第２００５／００６０９５号

しかしながら、映像を見ながら各動作の開始時点や終了時点を見つけてマウスをクリックする構成では、例えば作業を構成する動作の数が多くなったり、解析対象の映像が長くなったりすると、解析者に掛かる負担が増し、これが原因となって解析精度に悪影響を及ぼす可能性がある。特に、複数回繰り返し行われる作業を撮影した際の映像を解析する場合には、各回の作業に対して、各動作の開始時点や終了時点を見つけることになり、解析負担が一段と増える。

そこで、本発明は、上記の問題に鑑みてなされたものであり、その目的は、作業の映像を解析する映像解析装置として、当該作業を構成する複数の動作の各々の区切り目を容易に見つけることが可能な装置を提供することにある。
また、本発明の他の目的は、コンピュータによって作業の映像を解析する映像解析方法として、当該作業を構成する複数の動作の各々の区切り目を容易に見つけることが可能な方法を提供することにある。

前記課題は、本発明の映像解析装置によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、前記音入り映像を取得する映像取得部と、前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報と、前記動作別に設定された設定画像を示す設定画像データとを記憶している記憶部と、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出する抽出部と、該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定すると共に、前記抽出部が抽出したフレーム画像が前記動作別の前記設定画像のいずれかとマッチングするかどうかを、前記設定画像データに基づいて判定する判定部と、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備えており、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部は、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、を記憶しており、前記設定部は、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することにより解決される。
上記のように構成された本発明の映像解析装置では、作業を撮像した音入り映像から当該作業中に発生する音を抽出し、抽出した音がいずれかの設定音とマッチングするかどうかを、設定音情報に基づいて判定する。そして、上記の音入り映像に対して設定された時間軸において、ある動作の設定音とマッチングする音の発生時点を基準として、ある動作の区切り目を設定する。以上の手順により、本発明の映像解析装置は、作業を構成する動作の区切り目を自動的に設定する。この結果、本発明の映像解析装置を用いることにより、解析者が作業の映像を見ながら動作の区切り目を見つける手間を要さず、より容易に動作の区切り目を設定することが可能となる。
また上記の構成によれば、音入り映像から抽出した音やフレーム画像から、動作の区切り目である開始時点や終了時点を設定することになる。これにより、作業を構成する動作の区切り目を自動的に設定する方法についてバリエーションが増え、動作の区切り目を設定する方法についての自由度が高まることになる。

また前記課題は、本発明の映像解析装置によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、前記音入り映像を取得する映像取得部と、前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報を記憶している記憶部と、前記音入り映像から前記作業中に発生する音を抽出する抽出部と、該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定する判定部と、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備えており、前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音と、前記作業に用いられる工具又は装置が発する機械音によって規定された前記設定音とが含まれており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶すると共に、前記工具または装置が発する機械音によって規定された前記設定音に関する前記設定音情報を記憶しており、前記設定部は、前記ある動作において前記作業者が前記工具又は装置を用いない場合には、前記音声によって規定された前記設定音によって前記動作の区切り目を決定し、前記ある動作において前記作業者が前記工具又は装置を用いる場合には、前記音声又は前記機械音によって前記動作の区切り目を決定することによっても解決される。
上記の構成によれば、作業者が発する音声に基づいて各動作の区切り目を自動的に設定することが可能となる。
また上記の構成によれば、作業に用いられる工具または装置が発する機械音に基づいて各動作の区切り目を自動的に設定することが可能となる。

また、上記の映像解析装置において、前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、前記作業に含まれる前記動作の数に応じて繰り返し実行されるとよい。
上記の構成によれば、作業を構成する複数の動作の各々の区切り目を自動的に設定することが可能となる。
また、上記の映像解析装置において、前記映像取得部は、複数回の前記作業を撮像した際の前記音入り映像を取得し、複数回の前記作業の各々に対して、前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、各々の前記作業に含まれる前記動作の数に応じて繰り返し実行されると更によい。
上記の構成によれば、複数回の作業を撮影した際の映像を解析し、それぞれの作業における各動作の区切り目を自動的に設定することが可能となる。つまり、上記の構成では、より容易に各動作の区切り目を設定するという本発明の効果がより有意義に発揮されることになる。

また、上記の映像解析装置において、前記動作の開始時点を決めるための前記設定音、及び、前記動作の終了時点を決めるための前記設定音が、それぞれ前記動作別に設定されており、前記記憶部は、前記開始時点を決めるための前記設定音に関する前記設定音情報、及び、前記終了時点を決めるための前記設定音に関する前記設定音情報を、それぞれ記憶していると尚よい。
上記の構成によれば、各動作の区切り目として、各動作の開始時点及び終了時点を自動的に設定することが可能となる。

また、上記の映像解析装置において、前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音が含まれており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶しているとよい。
上記の構成によれば、作業者が発する音声に基づいて各動作の区切り目を自動的に設定することが可能となる。

また、上記の映像解析装置において、前記作業者が発する音声によって規定された前記設定音は、登録された前記作業者の人数分だけ設定されており、前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を、登録された前記作業者別に記憶していると更によい。
上記の構成によれば、作業者が発生する音声によって規定された設定音、及び、当該設定音に関する設定音情報が、登録された作業者だけ用意されている。これにより、作業者が変わった場合であっても、各動作の区切り目を適切に且つ自動的に設定することが可能となる。

また、上記の映像解析装置において、前記記憶部は、前記設定音情報として、前記設定音の波形に関する情報を記憶しているとよい。
上記の構成によれば、音入り映像から抽出した音と設定音とがマッチングしているかどうかを判定する際に、両者の波形を比較して判定することになる。これにより、上記２つの音がマッチングしているかどうかを適切に判定することが可能となる。

また、上記の映像解析装置において、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部は、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、を記憶しており、前記抽出部は、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出し、前記判定部は、前記抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定すると共に、前記抽出部が抽出したフレーム画像が前記動作別の前記設定画像のいずれかとマッチングするかどうかを、前記設定画像データに基づいて判定し、前記設定部は、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音が発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定するとよい。
上記の構成によれば、音入り映像から抽出した音やフレーム画像から、動作の区切り目である開始時点や終了時点を設定することになる。これにより、作業を構成する動作の区切り目を自動的に設定する方法についてバリエーションが増え、動作の区切り目を設定する方法についての自由度が高まることになる。

また、前述した課題は、本発明の映像解析方法によれば、複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析方法であって、コンピュータが、前記音入り映像を取得するステップと、コンピュータが、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出するステップと、コンピュータが、抽出した音が前記動作の区切り目を決めるために前記動作別に設定された設定音のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定音に関する設定音情報に基づいて判定すると共に、抽出したフレーム画像が前記動作別に設定された設定画像のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定画像を示す設定画像データに基づいて判定するステップと、コンピュータが、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定するステップと、を備えており、前記動作の開始時点及び終了時点が前記区切り目として設定され、前記記憶部には、前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、が記憶されており、前記設定するステップでは、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することにより解決される。
上記の方法によれば、作業を構成する動作の区切り目をコンピュータによって自動的に設定するので、より容易に動作の区切り目を設定することが可能となる。

本発明の映像解析装置及び映像解析方法によれば、作業を構成する動作の区切り目を自動的に設定することで、容易に動作の区切り目を設定することが可能となる。

本発明の一実施形態に係る映像解析装置を利用している場面を示す図である。作業を撮像して得られる音入り映像を示す概念図である。映像解析装置の構成を示すブロック図である。動作の区切り目に関する説明図である。動作の区切り目を設定する手順を示す図である。映像解析処理の流れを示す図である。抽出音と設定音とのマッチング度合いを評価する方法に関する説明図である。変形例に係る映像解析処理の流れを示す図である。変形例に係る映像解析処理において動作の区切り目を設定する手順を示す図である。

以下、本発明の一実施形態（本実施形態）について説明する。なお、以下に説明する実施形態は、本発明の理解を容易にするための一例であり、本発明を限定するものではない。すなわち、本発明は、その趣旨を逸脱することなく、変更、改良され得ると共に、本発明にはその等価物が含まれることは勿論である。

＜＜本実施形態に係る映像解析装置の概要＞＞
先ず、本実施形態に係る映像解析装置（以下、映像解析装置１）について、その概要を説明する。映像解析装置１は、作業分析用のツールとして用いられ、より具体的には、作業の所要時間（作業時間）を算出して当該作業の効率等を評価するために用いられる装置である。ここで、「作業」とは、複数の動作からなり、具体的には、作業者が設定された計画や目的の下で行う一連の動作の集まりである。また、「動作」とは、作業を構成する要素に相当し、作業を細分化したときの最小単位である。

映像解析装置１の用途について図１を参照しながら具体的に説明する。図１は、映像解析装置１を利用している場面を示す図である。映像解析装置１は、図１に示すようにコンピュータによって構成され、ネットワークＮを介してカメラ２と通信可能な状態で接続されている。カメラ２は、集音機能を有する撮像装置であり、作業者３が作業している様子を撮影する。カメラ２が撮影した映像（撮像映像）は、音入り映像であり、厳密には一般的な動画情報である。撮像映像は、データ化（電子ファイル化）された上でネットワークＮを通じて映像解析装置１に伝送される。

そして、映像解析装置１は、カメラ２から撮像映像を受信すると、撮像映像に映っている作業を分析するために当該撮像映像を解析する処理を実行する。この解析処理において、映像解析装置１は、撮像映像中に含まれる作業の映像を動作毎の映像（以下、要素映像）に区分けし、それぞれの動作の要素映像から当該動作の所要時間（要素時間）を評価し、更に、各動作の要素時間を合算して作業時間を算出する。

ちなみに、図１に図示のケースでは、工場の製造ラインにおいて作業者３が所定の製品（以下、製品６）を製造する上で加工作業を行い、カメラ２が当該加工作業を撮影する。映像解析装置１は、その撮像映像を解析することにより、上記の加工作業を構成する複数の動作のそれぞれについて要素映像を取得し、各動作の要素時間を評価する。

なお、図１に図示のケースでは、上記の加工作業が三つの動作によって構成されており、具体的には、作業者３が製品６を作業台の所定位置にセットする動作（以下、動作Ａ）、作業者３が工具５を用いて製品６を一次研磨する動作（以下、動作Ｂ）、及び、作業者３が装置４を用いて二次研磨する動作（以下、動作Ｃ）によって構成されている。また、上記の加工作業は、動作Ａ、動作Ｂ、動作Ｃの順で進行することになっている。

作業時間をはじめとする映像解析の結果については、映像解析装置１のモニタに表示されることになっている。映像解析装置１のユーザである解析者は、モニタに表示された映像解析の結果を見て、分析対象の作業が効率よく行われているか否かを判定し、改善の必要性がある場合には映像解析装置１を用いて更なる解析を行う。

映像解析装置１の用途は、以上までに説明した通りであるが、本実施形態では特に、複数回繰り返し行われる作業を撮像した際の映像を解析し、各々の作業についての分析を行うために用いられることになっている。かかる内容を含め、映像解析装置１の構成については後の項で説明することとする。

＜＜解析対象の映像について＞＞
次に、映像解析装置１の解析対象となる映像について図２を参照しながら説明する。図２は、解析対象の映像についての説明図であり、図中の左側は、作業映像Ｍｔ（ハッチングが施された部分）を含むカメラ２の撮像映像Ｍｓ全体を示すイメージ図を示しており、図中の右側は、作業映像Ｍｔ中の内容（具体的にはフレーム画像）を断片的に図示している。

なお、以下では図１に図示のケース、すなわち、工場の製造ラインにおいて作業者３が製品６に対して加工作業を行っている様子を撮影するケースを例に挙げて説明することとする。なお、以下に説明するケースにおいて、カメラ２は、作業者３が上記の加工作業を繰り返し行っている様子を撮影し、映像解析装置１は、複数回分の加工作業の映像（作業映像Ｍｔ）が収録された撮像映像Ｍｓを解析することとする。

カメラ２の撮像映像Ｍｓについて説明すると、当該撮像映像Ｍｓの撮影開始時点（映像開始時点に相当）は、複数回分の加工作業のうち、初回の加工作業の開始時点よりも早い時間に設定されている。他方、撮像映像Ｍｓの撮影終了時点（映像終了時点に相当）は、複数回分の加工作業のうち、最終回の加工作業の終了時点よりも遅い時間に設定されている。そして、図２に示すように、撮像映像Ｍｓの中には作業映像Ｍｔが複数、具体的には加工作業の実施回数と同じ数だけ含まれている。

そして、複数の作業映像Ｍｔを含む撮像映像Ｍｓが映像解析装置１の解析対象となる。より具体的に説明すると、撮像映像Ｍｓ中から作業映像Ｍｔが特定され、その後、特定された作業映像Ｍｔは、加工作業を構成する複数の動作（すなわち、動作Ａ、Ｂ及びＣ）の要素映像へ区分けされることになっている。区分けされたそれぞれの要素映像については、その開始時点から終了時点までの期間が求められる。この結果、各動作の所要時間（すなわち、要素時間）が明らかになる。

なお、図２の右側に図示された作業映像Ｍｔにおいて、最上段の映像（フレーム画像）は、加工作業の開始時点（換言すると、動作Ａの開始時点）の映像を示す。また、上から２段目の映像（フレーム画像）は、動作Ａの要素映像を示し、上から３段目の映像（フレーム画像）は、動作Ｂの要素映像を示し、最下段の映像（フレーム画像）は、動作Ｃの要素映像を示す。

ところで、本実施形態において、映像解析装置１は、撮像映像Ｍｓから作業映像Ｍｔを特定する機能を備えると共に、作業映像Ｍｔを自動的に動作別の要素映像に区分けする機能も備えている。かかる点が本実施形態に係る映像解析装置１の特徴である。次項では、かかる特徴を含め、本実施形態に係る映像解析装置１の構成について詳しく説明することとする。

＜＜映像解析装置の構成＞＞
次に、本実施形態に係る映像解析装置１の構成について説明する。映像解析装置１は、前述したように、コンピュータによって構成されており、具体的にはパソコンやタブレット型端末によって構成されている。映像解析装置１を構成するコンピュータは、ＣＰＵ、ＲＯＭやＲＡＭ等のメモリ、ハードディスクドライブ、通信用インタフェース、キーボードやマウス等の入力デバイス、及びモニタ等の出力デバイスを構成機器として備えている。また、ハードディスクドライブには、コンピュータを映像解析装置１として機能させるためのコンピュータプログラム（以下、映像解析プログラム）が格納されている。この映像解析プログラムがＣＰＵによって読み出されて実行されることで、作業分析（映像解析）に係る一連のデータ処理が行われるようになる。

ここで、映像解析装置１の構成を機能面から改めて説明すると、映像解析装置１は、図３に示すように、映像取得部１１、記憶部１２、抽出部１３、判定部１４及び設定部１５を有する。これらは、映像解析装置１を構成するコンピュータが有する上述のハードウェア機器がソフトウェアとしての映像解析プログラムと協働することによって実現される。なお、図３は、映像解析装置１の構成を示すブロック図である。
以下、映像取得部１１、記憶部１２、抽出部１３、判定部１４及び設定部１５のそれぞれについて個別に説明する。

（映像取得部）
映像取得部１１は、複数回分の作業映像Ｍｔを含んだ撮像映像Ｍｓをカメラ２から取得するものである。なお、本実施形態では、映像取得部１１がネットワークＮ経由でカメラ２から直接取得することとしたが、これに限定されるものではなく、撮像映像Ｍｓのデータを所謂クラウドサーバに一時的に保管し、当該クラウドサーバから撮像映像Ｍｓのデータをダウンロードしてくることとしてもよい。

（記憶部）
記憶部１２は、映像解析において必要となる情報を記憶するものである。ここで、記憶部１２が記憶している情報について説明すると、記憶部１２が記憶している情報の中には、作業映像Ｍｔを要素映像に区分するための情報としての設定音情報が含まれている。設定音情報とは、作業における動作の区切り目を決めるために動作別に設定された設定音に関する情報であり、具体的には、設定音の波形に関する情報である。

以下、設定音について詳しく説明する。設定音は、前述したように、動作の区切り目を決めるために設定された音であり、具体的には、動作の開始時点や終了時点を決める（特定する）ために設定された識別音である。より具体的に説明すると、本実施形態では、動作Ａ、Ｂ、Ｃのそれぞれに対して、動作の開始時点を決めるための設定音と、動作の終了時点を決めるための設定音と、が設定されている。

また、本実施形態に係る設定音は、作業者３が発生する音声、あるいは作業に用いる装置４や工具５が発する機械音によって規定されている。具体的に説明すると、本実施形態において、動作Ａの開始時点を決めるための設定音、及び、動作Ａの終了時点を決めるための設定音は、登録された作業者３が発する音声によって規定された設定音となっている。より詳しく説明すると、動作Ａの開始時点を決めるための設定音については、作業者３が動作Ａを開始する際に発する音声によって規定されている。また、動作Ａの終了時点を決めるための設定音については、作業者３が動作Ａを終了する際に発する音声によって規定される。そして、上記二つの設定音のそれぞれについて、波形情報が設定音情報として記憶部１２に記憶されている。

さらに、本実施形態では、製品６の加工作業を行う者として複数の作業者３が登録されており、動作Ａの開始時点や終了時点を決めるための設定音が、登録された作業者３の人数分だけ設定されている。これに伴い、記憶部１２は、上記の設定音に関する設定音情報（波形情報）を、登録された作業者別に記憶している。

また、本実施形態において、動作Ｂの開始時点を決めるための設定音は、動作Ｂにおいて使用する工具５が発する機械音によって規定された音となっている。より詳しく説明すると、作業者３は、動作Ｂを開始するに際して工具５を把持し、工具５を製品６に当接させる。このときに発生する機械音が、動作Ｂの開始時点を決めるための設定音に設定されている。そして、かかる機械音の波形情報が設定音情報として記憶部１２に記憶されている。なお、設定音として設定された工具５が発する機械音については、可聴領域の音であってもよく、非可聴領域の音であってもよい。

一方、動作Ｂの終了時点を決めるための設定音は、登録された作業者３が発する音声によって規定された音となっている。より詳しく説明すると、動作Ｂの終了時点を決めるための設定音は、作業者３が動作Ｂを終了する際に発する音声によって規定されている。そして、かかる音声の波形情報が設定音情報として記憶部１２に記憶されている。なお、本実施形態では、前述したように、製品６の加工作業を行う者として複数の作業者３が登録されているため、動作Ｂの終了時点を決めるための設定音については、登録された作業者３の人数分だけ設定されている。これに伴い、記憶部１２には、上記の設定音に関する設定音情報（波形情報）が登録された作業者別に記憶されている。

また、本実施形態において、動作Ｃの開始時点を決めるための設定音は、動作Ｃにおいて使用する装置５が発する機械音によって規定された音となっている。より詳しく説明すると、作業者３は、動作Ｃを開始するに際して、装置４の電源をオンにして装置４を作動させる。このときに発生する機械音（作動音）が動作Ｃの開始時点を決めるための設定音に設定されている。そして、かかる機械音の波形情報が設定音情報として記憶部１２に記憶されている。なお、設定音として設定された装置４が発する機械音については、可聴領域の音であってもよく、非可聴領域の音であってもよい。

一方、動作Ｃの終了時点を決めるための設定音は、登録された作業者３が発する音声によって規定された音となっている。より詳しく説明すると、動作Ｃの終了時点を決めるための設定音は、作業者３が動作Ｃを終了する際に発する音声によって規定されている。そして、かかる音声の波形情報が設定音情報として記憶部１２に記憶されている。なお、動作Ｃの終了時点を決めるための設定音についても、登録された作業者３の人数分だけ設定されている。これに伴い、記憶部１２には、上記の設定音に関する設定音情報（波形情報）が登録された作業者別に記憶されている。

なお、上記の内容は、各動作の区切り目を決めるために設定される設定音の一例に過ぎず、当然ながら上記の内容以外であってもよい。また、設定音については、作業者３が発する音声や合図音（例えば、動作開始時又は終了時に鳴るチャイムやベル音）のように意図的に発せられる音であってもよく、あるいは、装置４や工具５が発する機械音のように動作に付随（連動）して発せられる音であってもよい。

（抽出部）
抽出部１３は、撮像映像Ｍｓから作業中に発生する音を抽出するものである。具体的に説明すると、予め音抽出条件が設定されており、抽出部１３は、撮像映像Ｍｓにおいて当該音抽出条件を満たす音が流れる（再生される）と、その音を検知し、抽出対象として抽出する。なお、音抽出条件は、音量、音色若しくは音域を基準として設定されることになっており、本実施形態では、所定の音量以上の音であることが音抽出条件として設定されている。

（判定部）
判定部１４は、抽出部１３が抽出した音がいずれかの設定音とマッチングするかどうかを、記憶部１２に記憶された設定音情報に基づいて判定するものである。具体的に説明すると、判定部１４は、抽出部１３が抽出した音の波形を特定する。その後、判定部１４は、記憶部１２に設定音情報として記憶された波形情報を順次読み出し、読み出した波形情報と抽出音の波形情報とを対比し、両者間のマッチング度合いを評価する。そして、判定部１４は、評価したマッチング度合いが閾値（予め設定された基準値）を超えているか否かを確認する。確認の結果、上記のマッチング度合いが閾値を超えている場合、判定部１４は、抽出音がそのときの設定音とマッチングしていると判定する。

なお、マッチング度合いを評価する方法については、特に限定されるものではなく、音同士のマッチング度合いを評価する方法として好適な方法を利用すればよい。ちなみに、本実施形態では、マッチング度合いを評価する際に声紋認証の技術が適用されている。具体的に説明すると、判定部１３は、抽出音の波形情報として、当該抽出音の周波数構成をパターン化（スペクトル化）した「声紋」を特定する。一方で、記録部１２には、各設定音の波形情報としての「声紋」が記憶されている。判定部１３は、抽出音の声紋と設定音の声紋とを対比して、両者のマッチング度合いを評価する。このような方法であれば、抽出音が設定音と合致するかどうかを適切に判断し得ると共に、合致する設定音が作業者３の音声によって規定されている音である場合には、誰の音声であるかを特定することも可能となる。

ただし、マッチング度合いを評価する方法については、声紋認証の技術を用いた方法以外にも考えられ、例えば、音声認識及び自然言語処理の技術を用いた方法を利用してもよい。具体的に説明すると、抽出音が作業者３の音声によって規定された音である場合、その音声が意味する言語（単語や語句）を特定する。その一方で、記憶部１２には、設定音の情報（厳密には、作業者３の音声によって規定される設定音に関する情報）として、当該設定音が意味する言語（単語や語句）が記憶されている。そして、抽出音から特定した言語と、設定音情報として記憶されている言語とを比較することにより、マッチング度合いを評価することとしてもよい。

（設定部）
設定部１５は、撮像映像Ｍｓに対して設定された時間軸において、ある動作の設定音とマッチングする音（抽出音）の発生時点を基準として、ある動作の区切り目を設定するものである。具体的に説明すると、設定部１５は、撮像映像Ｍｓにおいて作業映像Ｍｔに該当する映像を特定し、特定した当該映像の中で動作Ａ、Ｂ、Ｃの区切り目、具体的には各動作の開始時点及び終了時点を設定する。

以下、設定部１５による区切り目の設定の手順について図４及び５を参照しながら説明することとする。図４は、動作の区切り目に関する説明図であり、図中の上図は、撮像映像Ｍｓの時間軸を示す図であり、下図は、撮像映像Ｍｓの時間軸において作業映像Ｍｔに当たる期間を拡大した図である。図５は、動作の区切り目を設定する手順を示す図であり、作業映像Ｍｔを各動作の要素映像に分割したところのイメージ図である。なお、図５中、作業映像Ｍｔを構成するセル（升目）は、作業映像Ｍｔにおける断片映像（厳密には、フレーム画像）を表しているが、図示の都合上、同図では、上記の断片映像の数が実際の数よりも幾分少なくなっている。

設定部１５は、撮像映像Ｍｓの時間軸において作業映像Ｍｔに当たる期間（以下、作業映像Ｍｔの期間）を特定する。より具体的に説明すると、設定部１５は、撮像映像Ｍｓの開始点（映像開始点）から終了点（映像終了点）までの期間中、作業映像Ｍｔの期間Ｔ、すなわち、加工作業の開始時点から終了時点までの期間を特定する。なお、本実施形態では、図４に示すように、撮像映像Ｍｓ中に複数の作業映像Ｍｔが含まれている。このため、本実施形態では、撮像映像Ｍｓの時間軸において作業映像Ｍｔの期間Ｔを特定する処理を、撮像映像Ｍｓ中に含まれている作業映像Ｍｔの数と同じ数だけ、繰り返し実行することになる。

ここで、撮像映像Ｍｓの時間軸において作業映像Ｍｔの期間Ｔを特定する手順について説明すると、設定部１５は、作業映像Ｍｔの期間Ｔの始点及び終点を定めることにより、当該期間Ｔを特定する。より分かり易く説明すると、本実施形態では、動作Ａの開始時点が作業映像Ｍｔの期間Ｔの始点として設定されており、動作Ｃの終了時点が作業映像Ｍｔの期間Ｔの終点として設定されている。つまり、撮像映像Ｍｓの時間軸において動作Ａの開始時点と動作Ｃの終了時点とを設定することにより、作業映像Ｍｔの期間Ｔが特定されることになる。

そして、動作Ａの開始時点及び動作Ｃの終了時点の各々は、判定部１４による判定結果に基づいて設定されることになっている。具体的に説明すると、動作Ａの開始時点を決めるために設定された設定音、すなわち、作業者３が動作Ａを開始する際に発する音声とマッチングする音（以下、一次開始音）が判定部１４による判定によって見つけられたとする。かかる場合、撮像映像Ｍｓの時間軸において一次開始音の発生時点ｔａ１が割り出される。このようにして割り出された一次開始音の発生時点ｔａ１は、図４に示すように、動作Ａの開始時点として設定されることになる。

同様に、動作Ｃの終了時点を決めるために設定された設定音、すなわち、作業者３が動作Ｃを終了する際に発する音声とマッチングする音（以下、三次終了音）が判定部１４による判定によって見つけられた場合、撮像映像Ｍｓの時間軸において三次終了音の発生時点ｔｃ２が割り出される。そして、割り出された三次終了音の発生時点ｔｃ２は、図４に示すように、動作Ｃの終了時点として設定されることになる。

以上のような手順により、撮像映像Ｍｓの時間軸においてすべての動作Ａの開始時点及びすべての動作Ｃの終了時点を設定することにより、撮像映像Ｍｓに含まれる作業映像Ｍｔの期間Ｔがすべて特定されることになる。

その後、設定部１５は、特定した作業映像Ｍｔの期間Ｔにおいて動作Ａ、Ｂ、Ｃの各々の区切り目（すなわち、開始時点及び終了時点）を設定する。この際、各動作の区切り目の設定については、上述した動作Ａの開始時点や動作Ｃの終了時点を設定したときと同様の手順にて行われる。具体的に説明すると、動作Ａの終了時点を決めるために設定された設定音、すなわち、作業者３が動作Ａを終了する際に発する音声とマッチングする音（以下、一次終了音）を判定部１４による判定によって見つけ、当該一次終了音の発生時点ｔａ２を動作Ａの終了時点として設定する。

また、動作Ｂの開始時点を決めるために設定された設定音、すなわち、工具５が発する機械音とマッチングする音（以下、二次開始音）を判定部１４による判定によって見つけ、当該二次開始音の発生時点ｔｂ１を動作Ｂの開始時点として設定する。また、動作Ｂの終了時点を決めるために設定された設定音、すなわち、作業者３が動作Ｂを終了する際に発する音声とマッチングする音（以下、二次終了音）を判定部１４による判定によって見つけ、当該二次終了音の発生時点ｔｂ２を動作Ｂの終了時点として設定する。

さらに、動作Ｃの開始時点を決めるために設定された設定音、すなわち、装置４が発する機械音とマッチングする音（以下、三次開始音）を判定部１４による判定によって見つけ、当該三次開始音の発生時点ｔｃ１を動作Ｃの開始時点として設定する。

なお、本実施形態では、設定音とマッチングする音の発生時点を動作の区切り目として設定することとしたが、これに限定されるものではない。つまり、設定音とマッチングする音の発生時点を基準として動作の区切り目を設定するものであればよいのであり、例えば、設定音とマッチングする音の発生時点から所定秒数だけ遡った時点を、その動作の区切り目として設定してもよい。反対に、設定音とマッチングする音の発生時点から所定秒数だけ経過した時点を、その動作の区切り目として設定してもよい。

以上までの手順により、作業映像Ｍｔの期間Ｔにおいて各動作の区切り目が設定される。この結果、作業映像Ｍｔが各動作の要素映像に区分けされるようになる。具体的に説明すると、図５に示すように、作業映像Ｍｔの期間Ｔにおいて一次開始音の発生時点ｔａ１から一次終了音の発生時点ｔａ２までの期間の映像を動作Ａの要素映像Ｍａとする。同様に、二次開始音の発生時点ｔｂ１から二次終了音の発生時点ｔｂ２までの期間の映像を動作Ｂの要素映像Ｍｂとする。また、三次開始音の発生時点ｔｃ１から三次終了音の発生時点ｔｃ２までの期間の映像を動作Ｃの要素映像Ｍｃとする。

＜＜映像解析処理の流れ＞＞
次に、映像解析装置１によって実行される映像解析処理の流れについて説明する。なお、映像解析処理では、本発明の映像解析方法が採用されている。つまり、以下に説明する映像解析処理の内容には、本発明の映像解析方法の説明が含まれている。そして、図６に図示した映像解析処理における各ステップは、本発明の映像解析方法を構成するステップに相当する。図６は、映像解析処理の流れを示す図である。

映像解析処理は、図６に示すように、映像解析装置１をなすコンピュータがカメラ２の撮像映像Ｍｓを取得するところから始まる（Ｓ００１）。この撮像映像Ｍｓは、複数回繰り返された加工作業の様子を収録しており、換言すると、撮像映像Ｍｓには複数回分の作業映像Ｍｔが含まれている。

次に、映像解析装置１をなすコンピュータは、取得した撮像映像Ｍｓにおいて流れている音の中から、音抽出条件を満たす音を抽出する（Ｓ００２）。これと共に、映像解析装置１をなすコンピュータは、記憶部１２に記憶された動作別の設定音情報を読み出す（Ｓ００３）。そして、映像解析装置１をなすコンピュータは、ステップＳ００２で抽出した音と、ステップＳ００３で読み出した設定音情報により特定される設定音と、がマッチングするか否かを判定する（Ｓ００４）。

より具体的に説明すると、映像解析装置１をなすコンピュータは、抽出音の波形情報を特定すると、当該抽出音の波形情報と、読み出した設定音情報が示す設定音の波形情報と、を対比する。このような波形情報の対比は、図７に示すように、記憶部１２から読み出す設定音情報を変えながら、抽出音とマッチングする設定音が見つかるまで繰り返し行われる。なお、抽出音とマッチングする設定音が見つからなかった場合には、音抽出条件を満たす音を改めて抽出し直すことになる。

他方、抽出音がいずれかの設定音（図７に図示のケースでは「設定音２」）とマッチングすると判定したとき、映像解析装置１をなすコンピュータは、撮像映像Ｍｓの時間軸において上記抽出音の発生時点を動作の区切り目として設定する（Ｓ００５）。ここで、設定される動作の区切り目は、マッチングする設定音の種類（内容）に応じて決められる。具体的に説明すると、例えば、抽出音が一次開始音（すなわち、動作Ａの開始時点を決めるための設定音）とマッチングする場合、当該抽出音の発生時点を動作Ａの開始時点として設定することになる。

そして、映像解析装置１をなすコンピュータは、撮像映像Ｍｓ取得後の一連のステップ（具体的にはステップＳ００２〜Ｓ００５）を、すべての動作の区切り目が設定されるまで繰り返し実行する（Ｓ００６）。すなわち、本実施形態では、動作Ａ、Ｂ、Ｃの各々の開始時点及び終了時点が設定されるまで、音を抽出するステップ、抽出音と設定音とがマッチングするか否かを判定するステップ、及び動作の区切り目を設定するステップが繰り返し実行されることになっている。換言すると、上記一連のステップは、加工作業に含まれる動作の数に応じた回数、具体的には、６回（＝動作の数「３」×各動作の区切り目の数「２」）だけ繰り返し実行されることになる。

また、本実施形態では、前述したように、撮像映像Ｍｓ中に複数の作業映像Ｍｔが含まれている。このため、本実施形態では、すべての作業映像Ｍｔに対して各動作の区切り目の設定が完了するまで、上記一連のステップが繰り返し実行されることになる（Ｓ００７）。そして、すべての作業映像Ｍｔに対して各動作の区切り目が設定された後に、映像解析装置１をなすコンピュータが所定の終了操作を受け付けると、その時点で映像解析処理が終了する。

以上までに説明してきたように、映像解析処理では、加工作業を構成する複数の動作（すなわち、動作Ａ、Ｂ、Ｃ）の各々について区切り目を自動的に設定する。このため、解析者が撮像映像Ｍｓを見ながら各動作の区切り目を見つける手間を要さず、容易に各動作の区切り目を設定することが可能となる。また、上述した手順によって各動作の区切り目が設定されることにより、解析者の技量に依存すくことなく、画一的に各動作の区切り目を設定することが可能となる。以上に述べた効果は、本実施形態のように加工作業を複数回繰り返し行ったときの撮像映像Ｍｓを解析する場合において、特に有効である。

さらに、本実施形態では、作業者３の声（音声）によって規定される設定音が、登録された作業者３の人数分だけ設定されている。このような構成であれば、加工作業が繰り返し行われる中で作業者３が交代したとき、この事を考慮して各動作の区切り目を適切に設定することが可能となる。

＜＜その他の実施形態＞＞
上記の実施形態では、本発明の映像解析装置及び映像解析方法について具体例を挙げて説明した。しかしながら、上記の実施形態は本発明の一例に過ぎず、上記以外の実施形態も考えられる。例えば、上記の実施形態では、ライン生産にて所定の製品を生産するときに行われる加工作業を作業の一例として挙げて説明した。すなわち、上記の実施形態では、上記の加工作業を撮影した撮像映像Ｍｓを解析する映像解析装置について説明した。ただし、これに限定されるものではなく、本発明の映像解析装置が解析対象とする作業の映像については、ライン生産における加工作業以外の作業の映像、またはセル生産にて製品を生産するときに行われる各種作業の映像であってもよい。あるいは、製品の生産を伴わない類の作業の映像、例えば、事務作業の映像を解析する際にも本発明の映像解析装置は有効である。また、作業には、業務として行われる作業以外の作業（例えば、スポーツや料理）が含まれ、そのような類の映像を解析する際にも本発明の映像解析装置は有効である。また、作業には、人が介在しない作業（例えば、ロボットや装置のみによって行われる作業）が含まれ、そのような類の映像を解析する際にも本発明の映像解析装置は有効である。

また、上記の実施形態では、作業を構成する動作の数が三つであることとしたが、作業を構成する動作の数については特に制限がなく、二以上の数である限り、任意の数に設定することが可能である。

また、上記の実施形態では、各動作の開始時点及び終了時点のいずれもが、設定音とマッチングする音の発生時点を基準として設定されることとした。ただし、これに限定されるものではなく、各動作の開始時点及び終了時点のうち、一方の時点については、上記の実施形態と同様、設定音とマッチングする音の発生時点を基準として設定されるのに対し、もう一方の時点については異なる方法にて設定されてもよい。かかる構成（変形例）について、以下、図８及び９を参照しながら説明することとする。図８は、変形例に係る映像解析処理の流れを示す図である。図９は、変形例に係る映像解析処理において動作の区切り目を設定する手順を示す図である。なお、以下では、上記の実施形態と重複する内容ついては説明を省略し、上記の実施形態と異なる内容を中心に説明することとする。

変形例では、動作の区切り目である開始時点及び終了時点のうち、開始時点を設定する際には、上記の実施形態と同様、設定音とマッチングする音の発生時点を基準にして開始時点を設定する。その一方で、終了時点を設定する際には、当該終了時点を決めるために動作別に設定された設定画像を参照し、撮像映像Ｍｓの中から設定画像とマッチングするフレーム画像を見つけ、撮像映像Ｍｓの時間軸においてフレーム画像が映し出される時点（以下、画像表示時点）を基準にして終了時点を設定する。

ここで、設定画像とは、動作の終了時点における作業者３、装置４又は工具５、若しくは製品６の状態、位置、姿勢を示す画像であり、動作別に設定されている。また、記憶部１２には各設定画像の画像データが記憶されている。そして、映像解析装置１をなすコンピュータ（厳密には、抽出部１３）は、撮像映像Ｍｓの中から逐次フレーム画像を抽出する。また、フレーム画像を抽出する都度、上記のコンピュータ（厳密には、判定部１４）は、抽出画像（抽出されたフレーム画像）と上記の設定画像とを対比して両画像間のマッチング度合いを評価する。なお、画像間のマッチング度合いを評価する方法については、特に制限されるものではなく、例えば公知の画像処理技術を適用してマッチング度合いを評価することが可能である。

変形例に係る映像解析処理の手順について説明すると、当該映像解析処理は、図８に示すように、映像解析装置１をなすコンピュータがカメラ２の撮像映像Ｍｓを取得するところから始まる（Ｓ０１１）。その後、映像解析装置１をなすコンピュータは、取得した撮像映像Ｍｓにおいて流れている音の中から音抽出条件を満たす音を抽出すると共に（Ｓ０１２）、記憶部１２に記憶された動作別の設定音情報を読み出す（Ｓ０１３）。この際に読み出される設定音情報は、各動作の開始時点を決めるための設定音に関する情報（波形情報）である。

そして、映像解析装置１をなすコンピュータは、抽出音と設定音情報により特定される設定音とがマッチングするか否かを判定する（Ｓ０１４）。この際、抽出音がいずれかの設定音とマッチングすると判定したとき、映像解析装置１をなすコンピュータは、撮像映像Ｍｓの時間軸において上記抽出音の発生時点を動作の開始時点として設定する（Ｓ０１５）。具体的には、抽出音の発生時点を、当該抽出音とマッチングする設定音と対応する動作、の開始時点として設定する。

その後、映像解析装置１をなすコンピュータは、撮像映像Ｍｓの中から各フレーム画像（厳密には、設定音とマッチングした抽出音の発生時点以降に映し出されるフレーム画像）を抽出すると共に（Ｓ０１６）、記憶部１２に記憶された設定画像を参照する（Ｓ０１７）。そして、映像解析装置１をなすコンピュータは、抽出画像と上記の設定画像とを対比し、両画像がマッチングするか否かを判定する（Ｓ０１８）。ここで、画像の対比は、図９に示すように、参照する設定画像を変えながら、抽出画像とマッチングする設定画像が見つかるまで繰り返し行われる。

上記の判定において抽出画像がいずれかの設定画像（図９に図示のケースでは「設定画像３」）とマッチングすると判定したとき、映像解析装置１をなすコンピュータ（厳密には、設定部１５）は、撮像映像Ｍｓの時間軸において上記抽出画像の画像表示時点を動作の終了時点として設定する（Ｓ０１９）。具体的には、抽出画像の画像表示時点を、当該抽出画像とマッチングする設定画像と対応する動作、の終了時点として設定する。

そして、撮像映像Ｍｓ取得後の一連のステップ（すなわち、ステップＳ０１２〜Ｓ０１９）を、すべての動作の開始時点及び終了時点が設定されるまで繰り返し実行する（Ｓ０２０）。さらに、すべての作業映像Ｍｔに対して各動作の区切り目の設定が完了するまで、上記一連のステップが繰り返し実行されることになる（Ｓ０２１）。最終的に、すべての作業映像Ｍｔに対して各動作の区切り目（開始時点及び終了時点）が設定された後に、映像解析装置１をなすコンピュータが所定の終了操作を受け付けると、その時点で映像解析処理が終了する。

以上のように動作の区切り目である開始時点及び終了時点のうちの一方の時点を設定する際に、撮像映像Ｍｓの中から抽出したフレーム画像と設定画像とのマッチング度合いを評価し、当該設定画像とマッチングする抽出画像の画像表示時点を基準として上記一方の時点を設定してもよい。あるいは、動作の開始時点及び終了時点のうちの一方の時点について、その時点における特徴的な検知対象（例えば、作業者３の立ち位置や製品６が置かれている位置）を検知するセンサを用い、センサが当該検知対象と検知した時点を基準として上記一方の時点を設定してもよい。

また、上記の実施形態では、作業を構成する動作のすべてについて区切り目（開始時点及び終了時点）を自動的に設定することとしたが、これに限定されるものではない。本発明は、作業を構成する複数の動作のうち、少なくとも一つについて区切り目を自動的に設定するものであり、上記複数の動作のうちの一部のみの区切り目を設定する際に本発明を適用してもよい。

１映像解析装置
２撮像装置
３作業者
４装置
５工具
６製品
１１映像取得部
１２記憶部
１３抽出部
１４判定部
１５設定部
Ｍａ，Ｍｂ，Ｍｂ要素映像
Ｍｓ撮像映像
Ｍｔ作業映像
Ｔ期間

Claims

複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、
前記音入り映像を取得する映像取得部と、
前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報と、前記動作別に設定された設定画像を示す設定画像データとを記憶している記憶部と、
前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出する抽出部と、
該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定すると共に、前記抽出部が抽出したフレーム画像が前記動作別の前記設定画像のいずれかとマッチングするかどうかを、前記設定画像データに基づいて判定する判定部と、
前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備えており、
前記動作の開始時点及び終了時点が前記区切り目として設定され、
前記記憶部は、
前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、
前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、を記憶しており、
前記設定部は、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することを特徴とする映像解析装置。
複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析装置であって、
前記音入り映像を取得する映像取得部と、
前記動作の区切り目を決めるために前記動作別に設定された設定音に関する設定音情報を記憶している記憶部と、
前記音入り映像から前記作業中に発生する音を抽出する抽出部と、
該抽出部が抽出した音が前記動作別の前記設定音のいずれかとマッチングするかどうかを、前記設定音情報に基づいて判定する判定部と、
前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定する設定部と、を備えており、
前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音と、前記作業に用いられる工具又は装置が発する機械音によって規定された前記設定音とが含まれており、
前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶すると共に、前記工具または装置が発する機械音によって規定された前記設定音に関する前記設定音情報を記憶しており、
前記設定部は、
前記ある動作において前記作業者が前記工具又は装置を用いない場合には、前記音声によって規定された前記設定音によって前記動作の区切り目を決定し、
前記ある動作において前記作業者が前記工具又は装置を用いる場合には、前記音声又は前記機械音によって前記動作の区切り目を決定することを特徴とする映像解析装置。
前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、前記作業に含まれる前記動作の数に応じて繰り返し実行されることを特徴とする請求項１又は２に記載の映像解析装置。
前記映像取得部は、複数回の前記作業を撮像した際の前記音入り映像を取得し、
複数回の前記作業の各々に対して、前記抽出部による音の抽出、前記判定部による判定、及び前記設定部による前記区切れ目の設定が、各々の前記作業に含まれる前記動作の数に応じて繰り返し実行されることを特徴とする請求項３に記載の映像解析装置。
前記動作の開始時点を決めるための前記設定音、及び、前記動作の終了時点を決めるための前記設定音が、それぞれ前記動作別に設定されており、
前記記憶部は、前記開始時点を決めるための前記設定音に関する前記設定音情報、及び、前記終了時点を決めるための前記設定音に関する前記設定音情報を、それぞれ記憶していることを特徴とする請求項１乃至４のいずれか一項に記載の映像解析装置。
前記動作別に設定された前記設定音の中には、前記作業を行う作業者が発する音声によって規定された前記設定音が含まれており、
前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を記憶していることを特徴とする請求項１に記載の映像解析装置。
前記作業者が発する音声によって規定された前記設定音は、登録された前記作業者の人数分だけ設定されており、
前記記憶部は、前記作業者が発する音声によって規定された前記設定音に関する前記設定音情報を、登録された前記作業者別に記憶していることを特徴とする請求項２又は６に記載の映像解析装置。
前記記憶部は、前記設定音情報として、前記設定音の波形に関する情報を記憶していることを特徴とする請求項１乃至７のいずれか一項に記載の映像解析装置。
複数の動作からなる作業を撮影した際の音入り映像を解析する映像解析方法であって、
コンピュータが、前記音入り映像を取得するステップと、
コンピュータが、前記音入り映像から前記作業中に発生する音を抽出すると共に、前記音入り映像からフレーム画像を抽出するステップと、
コンピュータが、抽出した音が前記動作の区切り目を決めるために前記動作別に設定された設定音のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定音に関する設定音情報に基づいて判定すると共に、抽出したフレーム画像が前記動作別に設定された設定画像のいずれかとマッチングするかどうかを、記憶部に記憶された前記設定画像を示す設定画像データに基づいて判定するステップと、
コンピュータが、前記音入り映像に対して設定された時間軸において、ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作の前記区切り目を設定すると共に、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作の前記区切り目を設定するステップと、を備えており、
前記動作の開始時点及び終了時点が前記区切り目として設定され、
前記記憶部には、
前記動作の前記開始時点及び前記終了時点のうち、一方の時点を決めるために前記動作別に設定された前記設定音に関する前記設定音情報と、
前記動作の前記開始時点及び前記終了時点のうち、他方の時点を決めるために前記動作別に設定された設定画像を示す設定画像データと、が記憶されており、
前記設定するステップでは、前記時間軸において、前記ある動作の前記設定音とマッチングする前記音の発生時点を基準として、前記ある動作における前記一方の時点を設定すると共に、前記時間軸において、前記ある動作の前記設定画像とマッチングする前記フレーム画像が映し出される時点を基準として、前記ある動作における前記他方の時点を設定することを特徴とする映像解析方法。