JP2021120820A

JP2021120820A - 計算プログラム、計算方法及び計算装置

Info

Publication number: JP2021120820A
Application number: JP2020014140A
Authority: JP
Inventors: 彬酒井; Akira Sakai
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2020-01-30
Filing date: 2020-01-30
Publication date: 2021-08-19
Anticipated expiration: 2040-01-30
Also published as: US20210241442A1; JP7415611B2; EP3859667A1; US11410289B2

Abstract

【課題】物体検知技術を利用した異常判定の精度を向上させること。【解決手段】計算装置は、対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と複数フレーム画像の時系列とを対応付けた検出マップ情報について、時系列における所定幅の区間領域を設定する。計算装置は、検出マップ情報において、設定した区間領域の位置を時系列に沿って変更させた場合の、区間領域中の検出結果の分布状態を、区間領域の複数の位置それぞれについて取得する。計算装置は、複数の位置それぞれの分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する。【選択図】図４

Description

本発明は、計算プログラム、計算方法及び計算装置に関する。

画像に写った物体を物体検知技術により検知した結果を利用して、当該物体に異常があるか否かを判定する技術が知られている。このような技術は、超音波画像を使った診察や、工業製品の不良品の検査等に利用される。

Joseph Redmon，Santosh Divvala，Ross Girshick，Ali Farhadi，"You Only Look Once: Unified, Real-Time Object Detection"，arXiv:1506.02640v5 [cs.CV]，9 May 2016

しかしながら、従来の技術には、異常判定の精度が低下する場合があるという問題がある。これは、物体検知の結果を利用して異常判定を行う場合、本来は物体の異常の有無に関与しない要素が判定結果に影響を与える場合があるためである。例えば、動画に写った物体を検知した結果を利用して異常判定を行う場合、当該動画の長さが異常判定の結果に影響を与えることがある。動画の長さは、物体に異常があるか否かには本来無関係である。

１つの側面では、物体検知技術を利用した異常判定の精度を向上させる。

１つの態様において、計算プログラムは、検出マップ情報について、時系列における所定幅の区間領域を設定する処理をコンピュータに実行させる。検出マップ情報は、対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と複数フレーム画像の時系列とを対応付けた情報である。計算プログラムは、検出マップ情報において、設定した区間領域の位置を時系列に沿って変更させた場合の、区間領域中の検出結果の分布状態を、区間領域の複数の位置それぞれについて取得する処理をコンピュータに実行させる。計算プログラムは、複数の位置それぞれの分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する処理をコンピュータに実行させる。

１つの側面では、物体検知技術を利用した異常判定の精度を向上させることができる。

図１は、計算装置の構成例を示すブロック図である。図２は、検出マップ情報の一例を示す図である。図３は、分散表現の計算方法を説明する図である。図４は、検知対象物のbarcode like timelineの一例を示す図である。図５は、検知対象物の分散表現の軌跡の一例を示す図である。図６は、正常状態の対象物のbarcode like timelineの一例を示す図である。図７は、正常状態の対象物の分散表現の軌跡の一例を示す図である。図８は、学習装置の構成例を示すブロック図である。図９は、検出処理の流れを示すフローチャートである。図１０は、判定処理の流れを示すフローチャートである。図１１は、学習処理の流れを示すフローチャートである。図１２は、ハードウェア構成例を説明する図である。

以下に、本発明に係る計算プログラム、計算方法及び計算装置の実施例を図面に基づいて詳細に説明する。なお、この実施例により本発明が限定されるものではない。また、各実施例は、矛盾のない範囲内で適宜組み合わせることができる。

図１を用いて、実施例に係る計算装置の構成を説明する。図１は、計算装置の構成例を示すブロック図である。図１に示すように、計算装置１０は、センサ２１からデータの入力を受け付ける。また、計算装置１０は、ディスプレイ２２に対しデータを出力する。

計算装置１０は、画像から分散表現を計算し、分散表現を基に画像に写っている対象物に異常があるか否かを判定する。特に、計算装置１０は、時系列上の複数の画像から分散表現を計算することができる。このような時系列上の複数の画像は、動画データを構成する各フレームの画像であってもよい。

センサ２１は、異常判定の対象の画像を生成するための信号を取得する装置である。例えば、センサ２１は、対象物に対して超音波を照射し、当該超音波の反射波を受信するプローブである。プローブは、例えば診察及び物体の非破壊検査に使われるものであってもよい。また、例えば、センサ２１は、対象物を撮影するＲＧＢカメラであってもよい。

なお、センサ２１は、収集した信号をそのまま計算装置１０に入力してもよいし、信号から生成した画像のデータを計算装置１０に入力してもよい。つまり、計算装置１０は、センサ２１から受け取った信号を基に画像を生成してもよいし、センサ２１から画像を受け取ってもよい。

図１に示すように、計算装置１０は、入力部１１、出力部１２、記憶部１３及び制御部１４を有する。入力部１１は、データを入力するためのインタフェースである。例えば、入力部１１は、センサ２１からのデータの入力を受け付ける。また、入力部１１は、マウス及びキーボード等の入力装置を介してデータの入力を受け付けてもよい。また、出力部１２は、データを出力するためのインタフェースである。例えば、出力部１２は、ディスプレイ２２等の出力装置にデータを出力する。

記憶部１３は、データや制御部１４が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部１３は、検出マップ情報１３１、モデル情報１３２及び正常画像情報１３３を有する。

検出マップ情報１３１は、対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と複数フレーム画像の時系列とを対応付けた情報の一例である。例えば本実施例では、検出マップ情報１３１は、フレーム画像のそれぞれに対応するｘｍｌデータの集合であるものとする。また、各ｘｍｌデータには、複数種類の特徴量が記載されているものとする。

図２は、検出マップ情報の一例を示す図である。図２に示すように、検出マップ情報１３１は、ｘｍｌデータの集合である。ｘｍｌデータのfilename要素には、対応するフレーム画像のファイルのパスが記載される。

ここで、本実施例では、センサ２１は、診察のためのプローブであるものとする。また、検出マップ情報１３１は、超音波画像から得られる特徴量であるものとする。特徴量には、フレーム画像にあらかじめ定められた各部位が写っている確率の高さに応じて算出される確信度が含まれるものとする。さらに、特徴量には、フレーム画像において各部位が存在すると推定される領域を表す矩形の、２つの頂点の座標が含まれるものとする。

ｘｍｌデータのname要素には、部位の名称が記載される。なお、ｘｍｌデータには、確信度が０でない、又は確信度が一定値以上の部位の情報のみが記載されるようにしてもよい。また、probability要素は、name要素に記載された部位の確信度を表している。対応する部位がフレーム画像の中に存在している確率が高いほど、確信度は大きくなる。

xmin要素及びymin要素は、矩形の１つの頂点の座標を表す。また、xmax要素及びymax要素は、xmin要素及びymin要素で表される頂点と辺を共有しない頂点の座標を表す。つまり、これらの２つの頂点の座標が決まれば、矩形の位置及び大きさが決まる。例えば、xmin要素及びymin要素で表される座標は矩形の左上の頂点を表す。また、xmax要素及びymax要素で表される座標は矩形の右下の頂点を表す。

図２に示されているｘｍｌデータは、「frame001.jpg」という名前のフレーム画像のファイルに対応している。また、図２のｘｍｌデータは、部位Ａが、点（384, 219）及び点（517, 362）を頂点とする矩形領域に存在し、その確信度が0.772151112556であることを示している。また、図２のｘｍｌデータは、部位Ｃが、点（242, 94）及び点（298, 174）を頂点とする矩形領域に存在し、その確信度が0.101077094674であることを示している。なお、座標は、例えばピクセル単位で表されたものであってもよい。

モデル情報１３２は、分散表現を計算するモデルを構築するためのパラメータ等の情報である。本実施例では、モデルはオートエンコーダであるものとする。この場合、モデル情報１３２は、オートエンコーダの各ユニットに設定される重み等のパラメータを含む。

正常画像情報１３３は、正常な状態にある対象物のフレーム画像に関する情報である。正常画像情報１３３は、フレーム画像そのものであってもよいし、フレーム画像の特徴量であってもよいし、フレーム画像の特徴量から得られた分散表現であってもよい。

制御部１４は、例えば、ＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＧＰＵ（Graphics Processing Unit）等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部１４は、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現されるようにしてもよい。制御部１４は、生成部１４１、検出部１４２、設定部１４３、取得部１４４、計算部１４５、判定部１４６及び表示制御部１４７を有する。

生成部１４１は、センサ２１から入力されたデータを基にフレーム画像を生成する。センサ２１からフレーム画像が入力される場合は、生成部１４１はフレーム画像を生成しなくてもよい。

検出部１４２は、フレーム画像から特徴量を抽出し、検出マップ情報１３１として記憶部１３に格納する。検出部１４２は、各部位の画像を学習済みの検出モデルを使って確信度を含む特徴量の検出を行う。検出モデルは、例えば、ＹＯＬＯ、ＳＳＤ（Single Shot MultiBox Detector）、Ｆａｓｔｅｒ−ＲＣＮＮ（Regional Convolutional Neural Network）等の物体検出アルゴリズムを用いるものであってもよい。

検出部１４２は、複数フレーム画像のそれぞれについて、あらかじめ定められた複数の物体のそれぞれが存在する確率の高さに応じた指標である確信度を検出する。複数の物体は、検出対象の各部位に対応する。また、検出部１４２は、フレーム画像内の矩形領域であって、物体が存在する確率が所定の値以上である矩形領域の大きさ及び位置をさらに検出する。

設定部１４３、取得部１４４及び計算部１４５は、分散表現の計算に関する処理を行う。図３は、分散表現の計算方法を説明する図である。ここで、検出マップ情報１３１に含まれる少なくとも一部の特徴量は、時系列に沿ってマッピングすることができる。図３の符号３０に示す図は、各部位の確信度を時系列にマッピングしたものである。つまり、検出マップ情報１３１は、複数種類の特徴量の種類を第１の軸とし、時系列を第２の軸とした２次元平面に検出結果をマッピングした２次元マップということができる。ここでは、このような図を、barcode like timelineと呼ぶ。また、barcode like timelineを単にタイムラインと呼ぶ場合がある。

図３の例では、確信度が大きいほどバーの色が濃くなる。以降、分散表現を計算するオートエンコーダが学習済みであるものとして、分散表現の計算方法を説明する。オートエンコーダの学習方法については後述する。

設定部１４３は、検出マップ情報１３１について、時系列における所定幅の区間領域を設定する。このような区間領域を、カーネルと呼ぶ。カーネルは、窓等と言い換えられてもよい。また、検出マップ情報１３１は、対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と複数フレーム画像の時系列とを対応付けた情報の一例である。

取得部１４４は、検出マップ情報１３１において、設定した区間領域の位置を時系列に沿って変更させた場合の、区間領域中の検出結果の分布状態を、区間領域の複数の位置それぞれについて取得する。確信度及び矩形領域の座標は、分布状態の一例である。また、区間領域の複数の位置は、各時刻に対応する。つまり、取得部１４４は、各時刻に対応するフレーム画像における各部位の確信度、矩形領域の大きさ及び位置を、分布状態として検出マップ情報１３１から取得する。

計算部１４５は、複数の位置それぞれの分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する。図３に示すように、計算部１４５は、中間層が２つのユニットによって構成されるオートエンコーダ４０に、分布状態を入力することにより、２次元空間へ射影した点の集合を示す分散表現を計算する。オートエンコーダ４０は、モデル情報１３２を基に構築される。また、オートエンコーダ４０は、入力層４１０、中間ユニット４２１、中間ユニット４２２及び出力層４３０を有する。分散表現は、中間ユニット４２１及び中間ユニット４２２によって出力される中間特徴量である。

図４は、検知対象物のbarcode like timelineの一例を示す図である。図４は、部位ごとの確信度をbarcode like timelineで表し、分散表現を計算するための各種設定値を説明した図である。図４に示すように、タイムライン３０は、ｎ枚のフレーム画像を含む。

また、設定部１４３は、カーネルサイズｆ、ストライドｓを設定する。つまり、連続するｆ枚のフレーム画像がカーネルを構成する。また、カーネルは、フレーム画像ｓ枚分ずつスライドされる。例えば、ｔ回目のスライドが行われた場合のカーネル３０１は、時刻ｔｓから時刻（ｔ＋１）ｓまでのフレーム画像を含む。そして、ｔ＋１回目のスライドが行われた場合のカーネル３０２は、時刻（ｔ＋１）ｓから時刻（ｔ＋２）ｓまでのフレーム画像を含む。

ここで、ｔ番目のフレーム画像の集合、すなわちカーネル３０１に含まれるフレーム画像を、ｍ_ｔと表記する（０≦ｔ≦Ｔ）。このとき、オートエンコーダのエンコーダ側の出力は、ｙ_ｔ＝ｅｎｃｏｄｅｒ（ｍ_ｔ）により得られる。計算部１４５は、全てのｔについてのエンコーダ側の出力｛ｙ_１, ｙ_２,…,ｙ_Ｔ｝を分散表現として得る。ただし、ｙ_ｔはオートエンコーダの中間ユニットと同数の次元のベクトルであってもよい。

判定部１４６は、取得した分散表現と、対象物を撮影した判定対象動画データから得られた分散表現との比較に基づいて、判定対象動画データが異常状態の対象物を撮影したものであるか否かを判定する。また、表示制御部１４７は、２次元空間へ射影した点の時系列に沿った軌跡を画面に表示する。このように、異常状態の判定は、判定部１４６によって自動的に行われるものであってもよいし、表示制御部１４７によって表示された画面を見たユーザによって手動で行われるものであってもよい。

図５は、検知対象物の分散表現の軌跡の一例を示す図である。計算部１４５は、図４に示すタイムライン３０をオートエンコーダ４０に入力し、分散表現を計算する。そして、表示制御部１４７は、分散表現の軌跡を図５のように描画する。

ここで、設定部１４３は、カーネルサイズを１０、ストライドを５に設定するものとする。また、図４では確信度のみをタイムライン３０上に表示しているが、実際には、計算部１４５は、座標を含めた特徴量をオートエンコーダ４０に入力する。つまり、図２に示すように、部位ごとに、probability要素、xmin要素、ymin要素、xmax要素、ymax要素の５つの要素の特徴量が存在する。また、部位の数は９とする。この場合、計算部１４５は、９（部位の数）×５（特徴量の数）×１０（カーネルサイズ）＝４５０個の値をオートエンコーダ４０に入力する。また、オートエンコーダ４０は、活性化関数としてｓｉｇｍｏｉｄを用いるものとする。

ここで、図６及び図７を用いて、正常状態の対象物の分散表現について説明する。図６は、正常状態の対象物のbarcode like timelineの一例を示す図である。図７は、正常状態の対象物の分散表現の軌跡の一例を示す図である。

例えば、取得部１４４は、正常画像情報１３３から、図６に示す正常状態のタイムライン３５を取得する。計算部１４５は、タイムライン３５から、正常状態の対象物の分散表現を計算する。このとき、図６に示すように、設定部１４３は、タイムライン３５に対して、検知対象物のタイムライン３０に設定したものと同じカーネルサイズ及びストライドを設定する。一方で、タイムライン３５のフレーム画像の枚数は、タイムライン３０のフレーム画像の枚数と異なっていてもよい。なお、正常状態の対象物のタイムライン３５は、オートエンコーダ４０の学習に用いられるものであってもよい。

図４から図７に示す（１）から（５）は、事前に定められた、異常判定をする際に注目すべき局面を指し示している。図７に示すように、正常状態のタイムライン３５から得られた分散表現は、表現は局面（２）、（３）内、及び局面（３）、（４）内の変動を捨象して表現している。一方、分散表現は、局面（２）、（３）から局面（３）、（４）への変化を強調して表現している。ここで、捨象は、軌跡の動きが小さいことを意味する。また、強調は、軌跡の動きが大きいことを意味する。

ここで、図７と図５を比べると、局面（３）、（４）における軌跡が大きく異なっている。具体的には、図７では、軌跡が座標（０，１）に近い位置を通過している。一方で、図５では、軌跡は座標（０，１）に近い位置を通過していない。このことから、ユーザは、図５が異常状態の分散表現の軌跡であることを判断できる。また、例えば、判定部１４６は、分散表現の軌跡が、座標（０．２,０．８）よりも左上にある領域を通らない場合に異常と判定することができる。

ここで、表示制御部１４７は、図５に示すような分散表現の軌跡を、出力部１２を介してディスプレイ２２に表示させることができる。さらに、表示制御部１４７は、図５に示すように、異常判定の根拠となる領域３２０を強調する枠を画面上に表示することができる。

図８を用いて、オートエンコーダ４０の学習を行う学習装置の構成について説明する。図８は、学習装置の構成例を示すブロック図である。図８に示すように、学習装置５０は、入力部５１、出力部５２、記憶部５３及び制御部５４を有する。入力部５１は、データを入力するためのインタフェースである。出力部５２は、データを出力するためのインタフェースである。

記憶部５３は、データや制御部５４が実行するプログラム等を記憶する記憶装置の一例であり、例えばハードディスクやメモリ等である。記憶部５３は、検出マップ情報５３１、モデル情報５３２を有する。

検出マップ情報５３１は、検出マップ情報１３１と同様の形式のデータである。ただし、検出マップ情報５３１は、学習用に用意された正常な状態のフレーム画像から検出された特徴量等である。

モデル情報５３２は、モデル情報１３２と同様に、オートエンコーダ４０を構築するためのパラメータ等である。ただし、モデル情報１３２が学習済みのパラメータであるのに対し、モデル情報５３２は、未学習又は学習中のパラメータであってもよい。

制御部５４は、例えば、ＣＰＵ、ＭＰＵ、ＧＰＵ等によって、内部の記憶装置に記憶されているプログラムがＲＡＭを作業領域として実行されることにより実現される。また、制御部５４は、例えば、ＡＳＩＣやＦＰＧＡ等の集積回路により実現されるようにしてもよい。制御部５４は、設定部５４１、取得部５４２、計算部５４３、更新部５４４を有する。

設定部５４１、取得部５４２、計算部５４３は、それぞれ設定部１４３、取得部１４４及び計算部１４５と同様の機能を有するものとする。更新部５４４は、計算部１４５による計算結果を基に、モデル情報５３２を更新する。

ここで、Ｋ個の正常状態の対象物のbarcode like timelineが用意されているものとする。このとき、ｋ番目のbarcode like timelineのｔ番目のフレーム画像の集合、すなわち図６のカーネル３５１に含まれるフレーム画像を、ｍ_ｔ ^ｋと表記する（０≦ｔ≦Ｔ_ｋ）。計算部５４３は、エンコーダ側の出力ｅｎｃｏｄｅｒ（ｍ_ｔ ^ｋ）を計算し、さらにデコーダ側の出力ｄｅｃｏｄｅｒ（ｅｎｃｏｄｅｒ（ｍ_ｔ ^ｋ））を計算する。

そして、更新部５４４は、損失関数Ｌｏｓｓ（ｄｅｃｏｄｅｒ（ｅｎｃｏｄｅｒ（ｍ_ｔ ^ｋ）））が最小化されるように、モデル情報５３２に含まれるエンコーダのパラメータθ_{ｅｎｃｏｄｅｒ}とデコーダのパラメータθ_{ｄｅｃｏｄｅｒ}を更新する。ここで、更新部５４４は、以下の条件でモデル情報５３２の更新を行う。
学習パラメータ：adagrad
学習率：0.3
反復回数：１０万回
バッチサイズ：１
損失関数：最小二乗誤差

図９を用いて、計算装置１０による検出処理の流れを説明する。図９は、検出処理の流れを示すフローチャートである。検出処置は、主に計算装置１０の生成部１４１及び検出部１４２によって行われる処理である。

図９に示すように、まず、計算装置１０は、センサデータの入力を受け付ける（ステップＳ１０１）。次に、計算装置１０は、センサデータからフレームごとの画像を生成する（ステップＳ１０２）。そして、計算装置１０は、各画像における部位ごとの特徴量を検出し、検出した特徴量を検出マップ情報として記憶部１３に格納する（ステップＳ１０３）。

図１０を用いて、計算装置１０による判定処理の流れを説明する。図１０は、判定処理の流れを示すフローチャートである。判定処理は、主に計算装置１０の計算部１４５及び判定部１４６によって行われる処理である。

図１０に示すように、まず、計算装置１０は、カーネルに関するパラメータを設定する（ステップＳ２０１）。次に、計算装置１０は、カーネル内の各画像における各部位の特徴量を検出マップ情報１３１から取得する（ステップＳ２０２）。そして、計算装置１０は、モデルにより特徴量をエンコードして分散表現を計算する（ステップＳ２０３）。

ここで、計算装置１０は、未処理の画像があるか否かを判定する（ステップＳ２０４）。未処理の画像がある場合（ステップＳ２０４、Ｙｅｓ）、計算装置１０は、カーネルをスライドし（ステップＳ２０５）、ステップＳ２０２に戻り処理を繰り返す。一方、未処理の画像がなくなった場合（ステップＳ２０４、Ｎｏ）、計算装置１０は、分散表現の軌跡を描画し表示する（ステップＳ２０６）。また、計算装置１０は、分散表現の軌跡から異常の有無を判定する（ステップＳ２０７）。

図１１を用いて、学習装置５０による学習処理の流れを説明する。図１１は、学習処理の流れを示すフローチャートである。

図１１に示すように、まず、学習装置５０は、カーネルに関するパラメータを設定する（ステップＳ３０１）。次に、学習装置５０は、カーネル内の各画像における各部位の特徴量を検出マップ情報５３１から取得する（ステップＳ３０２）。そして、学習装置５０は、モデルにより特徴量をエンコードして分散表現を計算する（ステップＳ３０３）。また、学習装置５０は、モデルにより分散表現をデコードした結果から損失関数を計算する（ステップＳ３０４）。さらに、学習装置５０は、損失関数が小さくなるようにモデルを更新する（ステップＳ３０５）。

ここで、学習装置５０は、未処理の画像があるか否かを判定する（ステップＳ３０６）。未処理の画像がある場合（ステップＳ３０６、Ｙｅｓ）、学習装置５０は、カーネルをスライドし（ステップＳ３０７）、ステップＳ３０２に戻り処理を繰り返す。一方、未処理の画像がなくなった場合（ステップＳ３０６、Ｎｏ）、学習装置５０は、学習処理の終了条件が充足されているか否かを判定する（ステップＳ３０８）。

学習処理の終了条件が充足されている場合（ステップＳ３０８、Ｙｅｓ）、学習装置５０は、処理を終了する。一方、学習処理の終了条件が充足されていない場合（ステップＳ３０８、Ｎｏ）、学習装置５０は、ステップＳ３０１に戻り処理を繰り返す。例えば、学習処理の終了条件は、ステップＳ３０１からＳ３０７までの処理が規定回数だけ繰り返されたこと等である。

これまで説明してきたように、設定部１４３は、対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と複数フレーム画像の時系列とを対応付けた検出マップ情報について、時系列における所定幅の区間領域を設定する。取得部１４４は、検出マップ情報において、設定した区間領域の位置を時系列に沿って変更させた場合の、区間領域中の検出結果の分布状態を、区間領域の複数の位置それぞれについて取得する。計算部１４５は、複数の位置それぞれの分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する。このように、計算装置１０は、カーネルごとの分散表現を計算することができる。このため、計算装置１０は、動画データの長さが分散表現に与える影響を小さくすることができる。その結果、本実施例によれば、物体検知技術を利用した異常判定の精度を向上する。

本実施例の効果をさらに詳細に説明する。まず、barcode like timelineのような、動画データからの物体検出の結果を時系列に並べたデータは、時系列方向の長さが不定形であり、また、物体の未検出、誤検出及び検出もれによるノイズを含むといった特徴がある。さらに、動画内には、数十フレームにわたってほぼ同一の画像が連続する部分や、数フレームのみの重要な部分が存在する場合がある。

従来、長さが不定形の時系列データに対する分散表現の獲得には、ＲＮＮ等が用いられてきた。しかしながら、時系列データが持つ上記のような特徴から、ＲＮＮ等の手法には、時系列データの長さ自体が分散表現に影響を与える、分散表現が時系列データ全体の様相を反映し、時系列の一局面の評価ができない、ノイズに対して鋭敏、といった問題があった。

一方、本実施例の計算装置１０は、時系列データの一部であるカーネルを利用して、連続的に分散表現を計算する。この結果、図７の局面（２）、（３）に現れているように、動画の同じ局面が続く場合、分散表現は、同一の領域に留まる。このため、本実施例では、動画の長さ自体が分散表現に与える影響を小さくすることができる。さらに、本実施例ではカーネル内で特徴が平均化されるため、得られる分散表現はノイズに対して頑強になる。

動画データをプローブから得る場合、操作者によりプローブが移動されれば動画の局面は変化し、操作者がプローブを同一箇所に留めた場合は動画の同じ局面が続く。動画の局面の変化の態様は、撮影しようとしている対象物や、操作者のクセによっても異なることが考えられる。本実施例では、分散表現の軌跡を得ることにより、局面の変化要因の影響を小さくすることができる。

また、判定部１４６は、取得した分散表現と、対象物を撮影した判定対象動画データから得られた分散表現との比較に基づいて、判定対象動画データが異常状態の対象物を撮影したものであるか否かを判定する。例えば、判定部１４６は、正常状態の対象物の動画データを判定対象動画データとして得られた分散表現と、取得した分散表現との軌跡の違いを比較することにより、自動的に異常の判定を行うことができる。

また、検出部１４２は、複数フレーム画像のそれぞれについて、あらかじめ定められた複数の物体のそれぞれが存在する確率の高さに応じた指標である確信度を検出する。取得部１４４は、確信度を分布状態として取得する。これにより、計算装置１０は、フレーム画像ごとの特徴により動画データの特徴を評価することができる。

また、検出部１４２は、フレーム画像内の矩形領域であって、物体が存在する確率が所定の値以上である矩形領域の大きさ及び位置をさらに検出し、取得部１４４は、確信度、矩形領域の大きさ及び位置を分布状態として取得する。これにより、動画内で物体の位置が変化した場合であっても、物体間の位置関係を把握することができる。

また、計算部１４５は、中間層が２つのユニットによって構成されるオートエンコーダに分布状態を入力することにより、２次元空間へ射影した点の集合を示す分散表現を計算する。このように、２次元という低次元に射影していることから、軌跡の評価や、ユーザによる直感的な特徴の把握が容易になる。

また、表示制御部１４７は、２次元空間へ射影した点の時系列に沿った軌跡を画面に表示する。これにより、ユーザは、対象物の動画データから得られる特徴を直感的に把握することができる。

また、検出マップ情報は、複数種類の特徴量の種類を第１の軸とし、時系列を第２の軸とした２次元平面に検出結果をマッピングした２次元マップである。

実施例では、プローブによる撮影対象の部位を、部位Ａ、部位Ｂ等と表記したが、撮影対象の部位は、例えば心臓に関する各部位であることが考えられる。この場合、部位には、右心房、左心房、右心室、左心室等が含まれていてもよい。

また、実施例では、センサ２１がプローブであるものとして説明を行った。一方で、センサ２１はＲＧＢカメラであってもよい。この場合、例えば、ＲＧＢカメラは、製造ラインにおいてコンベヤー上を移動する製品を動画として撮影する。そして、計算装置１０は、動画から分散表現を計算する。計算装置１０は、ここで得られた分散表現の軌跡と、正常な製品を撮影した動画から得られた分散表現の軌跡を比較することにより、不良品の判定をすることができる。

上記文書中や図面中で示した処理手順、制御手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。また、実施例で説明した具体例、分布、数値等は、あくまで一例であり、任意に変更することができる。

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散や統合の具体的形態は図示のものに限られない。つまり、その全部又は一部を、各種の負荷や使用状況等に応じて、任意の単位で機能的又は物理的に分散・統合して構成することができる。さらに、各装置にて行われる各処理機能は、その全部又は任意の一部が、ＣＰＵ及び当該ＣＰＵにて解析実行されるプログラムにて実現され、あるいは、ワイヤードロジックによるハードウェアとして実現され得る。

図１２は、ハードウェア構成例を説明する図である。図１２に示すように、計算装置１０は、通信インタフェース１０ａ、ＨＤＤ（Hard Disk Drive）１０ｂ、メモリ１０ｃ、プロセッサ１０ｄを有する。また、図１２に示した各部は、バス等で相互に接続される。

通信インタフェース１０ａは、ネットワークインタフェースカード等であり、他のサーバとの通信を行う。ＨＤＤ１０ｂは、図１に示した機能を動作させるプログラムやＤＢを記憶する。

プロセッサ１０ｄは、図１に示した各処理部と同様の処理を実行するプログラムをＨＤＤ１０ｂ等から読み出してメモリ１０ｃに展開することで、図１等で説明した各機能を実行するプロセスを動作させるハードウェア回路である。すなわち、このプロセスは、計算装置１０が有する各処理部と同様の機能を実行する。具体的には、プロセッサ１０ｄは、生成部１４１、検出部１４２、設定部１４３、取得部１４４、計算部１４５、判定部１４６及び表示制御部１４７と同様の機能を有するプログラムをＨＤＤ１０ｂ等から読み出す。そして、プロセッサ１０ｄは、生成部１４１、検出部１４２、設定部１４３、取得部１４４、計算部１４５、判定部１４６及び表示制御部１４７等と同様の処理を実行するプロセスを実行する。

このように計算装置１０は、プログラムを読み出して実行することで学習類方法を実行する情報処理装置として動作する。また、計算装置１０は、媒体読取装置によって記録媒体から上記プログラムを読み出し、読み出された上記プログラムを実行することで上記した実施例と同様の機能を実現することもできる。なお、この他の実施例でいうプログラムは、計算装置１０によって実行されることに限定されるものではない。例えば、他のコンピュータ又はサーバがプログラムを実行する場合や、これらが協働してプログラムを実行するような場合にも、本発明を同様に適用することができる。

このプログラムは、インターネット等のネットワークを介して配布することができる。また、このプログラムは、ハードディスク、フレキシブルディスク（ＦＤ）、ＣＤ−ＲＯＭ、ＭＯ（Magneto−Optical disk）、ＤＶＤ（Digital Versatile Disc）等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行することができる。

１０計算装置
１１、５１入力部
１２、５２出力部
１３、５３記憶部
１４、５４制御部
２１センサ
２２ディスプレイ
３０、３５タイムライン
４０オートエンコーダ
５０学習装置
１３１、５３１検出マップ情報
１３２、５３２モデル情報
１３３正常画像情報
１４１生成部、
１４２検出部
１４３、５４１設定部
１４４、５４２取得部
１４５、５４３計算部
１４６判定部
１４７表示制御部
４１０入力層
４２１、４２２中間ユニット
４３０出力層
５４４更新部

Claims

対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と前記複数フレーム画像の時系列とを対応付けた検出マップ情報について、前記時系列における所定幅の区間領域を設定し、
前記検出マップ情報において、設定した前記区間領域の位置を前記時系列に沿って変更させた場合の、前記区間領域中の前記検出結果の分布状態を、前記区間領域の複数の位置それぞれについて取得し、
前記複数の位置それぞれの前記分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する、
処理をコンピュータに実行させることを特徴とする計算プログラム。
取得した前記分散表現と、前記対象物を撮影した判定対象動画データから得られた前記分散表現との比較に基づいて、前記判定対象動画データが異常状態の対象物を撮影したものであるか否かを判定する
処理をさらに実行させることを特徴とする請求項１に記載の計算プログラム。
前記複数フレーム画像のそれぞれについて、あらかじめ定められた複数の物体のそれぞれが存在する確率の高さに応じた指標である確信度を検出する処理をさらに実行させ、
前記取得する処理は、前記確信度を前記分布状態として取得することを特徴とする請求項１に記載の計算プログラム。
前記検出する処理は、前記フレーム画像内の矩形領域であって、前記物体が存在する確率が所定の値以上である矩形領域の大きさ及び位置をさらに検出し、
前記取得する処理は、前記確信度、前記矩形領域の大きさ及び位置を前記分布状態として取得することを特徴とする請求項３に記載の計算プログラム。
前記計算する処理は、中間層が２つのユニットによって構成されるオートエンコーダに前記分布状態を入力することにより、２次元空間へ射影した点の集合を示す分散表現を計算することを特徴とする請求項１に記載の計算プログラム。
前記２次元空間へ射影した点の前記時系列に沿った軌跡を画面に表示する処理をさらに実行させることを特徴とする請求項５に記載の計算プログラム。
前記検出マップ情報は、前記複数種類の特徴量の種類を第１の軸とし、前記時系列を第２の軸とした２次元平面に前記検出結果をマッピングした２次元マップであることを特徴とする請求項１〜６のいずれか１項に記載の計算プログラム。
対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と前記複数フレーム画像の時系列とを対応付けた検出マップ情報について、前記時系列における所定幅の区間領域を設定し、
前記検出マップ情報において、設定した前記区間領域の位置を前記時系列に沿って変更させた場合の、前記区間領域中の前記検出結果の分布状態を、前記区間領域の複数の位置それぞれについて取得し、
前記複数の位置それぞれの前記分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する、
処理をコンピュータが実行することを特徴とする計算方法。
対象物を撮影した動画データに含まれる複数フレーム画像それぞれについて、複数種類の特徴量それぞれの検出結果と前記複数フレーム画像の時系列とを対応付けた検出マップ情報について、前記時系列における所定幅の区間領域を設定する設定部と、
前記検出マップ情報において、前記設定部が設定した前記区間領域の位置を前記時系列に沿って変更させた場合の、前記区間領域中の前記検出結果の分布状態を、前記区間領域の複数の位置それぞれについて取得し、
前記複数の位置それぞれの前記分布状態を低次元空間へ射影した点の集合を示す分散表現を計算する計算部と、
を有することを特徴とする計算装置。