JP2020035039A

JP2020035039A - 更新支援装置、更新支援方法およびプログラム

Info

Publication number: JP2020035039A
Application number: JP2018158981A
Authority: JP
Inventors: 和範井本; Kazunori Imoto; 山内　康晋; Yasuaki Yamauchi; 康晋山内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2018-08-28
Filing date: 2018-08-28
Publication date: 2020-03-05
Anticipated expiration: 2038-08-28
Also published as: JP6952660B2

Abstract

【課題】センサデータを分類するための識別辞書の更新を適切に支援することができる更新支援装置、更新支援方法およびプログラムを提供する。【解決手段】実施形態の動作解析装置は、ラベルなしデータの集合を識別辞書に対応する特徴空間上でクラスタリングして、１つ以上のラベルなしクラスタを生成するクラスタリング部と、ラベルありデータの集合を特徴空間上でクラスタリングすることで生成された１つ以上のラベルありクラスタの特徴空間における分布に対する、ラベルなしクラスタの特徴空間における分布の重なり状態を評価する評価部と、重なり状態の評価結果に基づいて、ラベルなしクラスタに属する各ラベルなしデータに対し、少なくとも、該ラベルなしデータが識別辞書の更新のための学習用データとして有用か否かを示す項目を含む学習属性を決定する学習属性決定部と、を備える。【選択図】図１

Description

本発明の実施形態は、更新支援装置、更新支援方法およびプログラムに関する。

現在、加速度、ジャイロ、心拍などのセンサデバイスを備えて身体に装着可能なウェアラブルセンサが普及している。ウェアラブルセンサは常時装着であることから、ユーザの健康状態、姿勢、行動などの継続的なモニタリングに活用できる。具体的には、日常生活の中から特定の行動の頻度を行動ログとして記録することや、作業現場で健康状態の異常を早期に察知して危険を回避することなどに利用できる。さらに、ウェアラブルセンサによる活動記録を作業現場に展開すれば、作業実績の自動記録に基づく作業忘れの防止や作業時間の無駄発見などの現場改善に活用できる可能性がある。作業実績の記録には、各時刻においてユーザがどの作業行動を実施していたかを判断するために、入力されるセンサデータと各々の作業行動の対応関係を明確にする必要がある。機械学習による行動分類では、センサデータを作業行動ごとの分類クラスに分類するための識別辞書を用いて、入力されるセンサデータに対応する作業を判断する。

しかし、作業現場ごとに特有の作業が存在する場合や新規の作業が追加される場合は、既存の識別辞書を用いた行動分類では、ユーザの作業行動を適切に判断できない場合がある。このような場合は、実際に作業現場に特有の作業や新規に追加された作業をユーザが実施した際のセンサデータを収集、ラベル教示し、これらを学習用データとして用いて識別辞書を更新する必要がある。しかし、既存の識別辞書の更新が必要なのかどうか、さらには、作業現場で収集されるセンサデータのうち、どのセンサデータを学習用データに用いれば識別辞書を適切に更新できるかを判断することは難しい。こうした観点から、識別辞書の更新を適切に支援できる技術が求められている。

特開２０１２−２４８０１７号公報

本発明が解決しようとする課題は、センサデータを分類するための識別辞書の更新を適切に支援することができる更新支援装置、更新支援方法およびプログラムを提供することである。

実施形態の更新支援装置は、センサデータを１つ以上の分類クラスに分類するための識別辞書の更新を支援する更新支援装置であって、クラスタリング部と、評価部と、学習属性決定部と、を備える。クラスタリング部は、分類クラスを示すラベルが未教示のセンサデータであるラベルなしデータの集合を前記識別辞書に対応する特徴空間上でクラスタリングして、１つ以上のラベルなしクラスタを生成する。評価部は、前記ラベルが教示され前記識別辞書の生成に用いられたセンサデータであるラベルありデータの集合を前記特徴空間上でクラスタリングすることで生成された１つ以上のラベルありクラスタの前記特徴空間における分布に対する、前記ラベルなしクラスタの前記特徴空間における分布の重なり状態を評価する。学習属性決定部は、前記重なり状態の評価結果に基づいて、前記ラベルなしクラスタに属する各ラベルなしデータに対し、少なくとも、該ラベルなしデータが前記識別辞書の更新のための学習用データとして有用か否かを示す項目を含む学習属性を決定する。

第１実施形態に係る更新支援装置の機能的な構成例を示すブロック図。センサデータの具体例を示す図。ラベルありクラスタの一例を示す図。ラベルなしクラスタの一例を示す図。クラスタごとの分布パラメータの一例を示す図。ＫＬダイバージェンスの値を示す図。学習属性決定部が出力する情報の一例を示す図。ラベルなしクラスタの他の例を示す図。ラベルなしクラスタの他の例を示す図。第１実施形態に係る更新支援装置の動作例を示すフローチャート。第２実施形態に係る更新支援装置の機能的な構成例を示すブロック図。学習属性決定部が出力した最新の情報を過去の情報と対比して示す図。提示部が提示する情報の一例を示す図。第３実施形態に係る更新支援装置の機能的な構成例を示すブロック図。確信度が付与された情報の一例を示す図。確信度が低い順にソートされた情報の一例を示す図。提示部が提示する情報の一例を示す図。更新支援装置のハードウェア構成例を示すブロック図。

以下、添付図面を参照して、実施形態の更新支援装置、更新支援方法およびプログラムを詳細に説明する。

＜実施形態の概要＞
本実施形態は、センサデータを１つ以上の分類クラスに分類するための識別辞書の更新を支援するものである。更新の対象となる識別辞書は、分類クラスを示すラベルが教示されたセンサデータ（以下、「ラベルありデータ」と呼ぶ）を学習用データとして生成（学習）された既存の識別辞書である。識別辞書の更新は、例えば、既存の識別辞書ではユーザが満足する分類結果が得られず、既存の識別辞書の分類クラスを再構築することが必要とされる場合に行われる。分類クラスの再構築の形態としては、例えば、分類クラスの追加、分類クラスの範囲拡大、分類クラスの細分化、分類クラスの統合などがある。

識別辞書の更新は、既存の識別辞書の生成に用いたラベルありデータ以外のセンサデータを学習用データに追加して識別辞書を追加学習することで実現できる。学習用データに追加するセンサデータは、例えば、実際に識別辞書を用いた識別の対象として、システムが運用される環境で収集されるラベル未教示のセンサデータ（以下、「ラベルなしデータ」と呼ぶ）である。このとき、分類クラスの再構築に寄与しないラベルなしデータ、つまり、既存の分類クラスに精度よく分類されるラベルなしデータは、学習用データとしての有用性が低い。また、分類クラスの再構築の形態のうち、分類クラスの追加、分類クラスの細分化、分類クラスの統合などに有用となるラベルなしデータは、少なくともその一部に対して、新たな分類クラスを示すラベルを教示する必要がある。しかし、こうした識別辞書の更新の必要性や、どのラベルなしデータを識別辞書の更新に利用すべきかをユーザが直感的に判断することは困難である。

そこで、本実施形態では、識別辞書に対応する特徴空間上におけるセンサデータの分布を手掛かりとして、学習用データに追加するセンサデータの候補として収集されるラベルなしデータの学習属性を決定する。この学習属性は、少なくとも、そのラベルなしデータが識別辞書の更新のための学習用データとして有用か否かを示す項目を含む。したがって、学習属性によって識別辞書の更新のための学習用データとして有用であることが示されたラベルなしデータ（以下、「追加学習用データ」と呼ぶ）の数や割合が大きくなったときに、識別辞書の更新が必要になったと判断することができ、また、その追加学習用データを用いれば識別辞書を適切に更新できると判断することができる。その結果、既存の識別辞書の更新を効率よく行うことができる。

以下では、センサデータから人の行動を識別する識別辞書への適用例を想定して説明するが、適用可能な識別辞書はこの例に限定されない。本実施形態は、各種のセンサデータを１つ以上の分類クラスに分類するために用いられる様々なタイプの識別辞書に対して有効に適用可能である。

＜第１実施形態＞
図１は、第１実施形態に係る更新支援装置の機能的な構成例を示すブロック図である。本実施形態の更新支援装置は、図１に示すように、取得部１と、クラスタリング部２と、評価部３と、学習属性決定部４と、を備える。

取得部１は、センサデータと既存の識別辞書とを取得する。センサデータとしては、例えば、３軸方向の速度変化の時系列データが取得可能な加速度センサが出力する３次元データが考えられる。取得部１が取得するセンサデータは、識別辞書の分類クラスに応じて適切な長さに区切られているものとする。

取得部１が取得するセンサデータの具体例を図２に示す。取得部１が取得するセンサデータには、図２に示すように、既存の識別辞書の分類クラスを示すラベルが教示されたラベルありデータと、ラベル未教示のラベルなしデータとが含まれる。本実施形態では、既存の識別辞書の分類クラスとして、行動Ａ、行動Ｂ、行動Ｃの３つがあるものとする。ラベルありデータは、既存の識別辞書の生成（学習）時に学習用データとして用いられたものである。ラベルなしデータは、既存の識別辞書を更新する際に学習用データとして追加するセンサデータの候補となるものである。これらのセンサデータには、各データに固有のデータ番号が与えられる。

クラスタリング部２は、取得部１が取得したセンサデータのうち、ラベルありデータの集合を既存の識別辞書に対応する特徴空間上でクラスタリングして、既存の識別辞書の分類クラスに対応するクラスタ（以下、「ラベルありクラスタ」と呼ぶ）を生成するとともに、ラベルなしデータの集合を同じ特徴空間上でクラスタリングして、分類クラスが明らかでないクラスタ（以下、「ラベルなしクラスタ」と呼ぶ）を生成する。

図３は、ラベルありクラスタの一例を示す図である。クラスタリング部２は、取得部１が取得した既存の識別辞書を利用して、ラベルありデータのそれぞれを多次元ベクトルである特徴量に変換し、多次元の特徴空間上にマッピングする。なお、図３では簡単のため、多次元の特徴空間を２次元空間として示している。そして、クラスタリング部２は、例えばＫ−ｍｅａｎｓ法やＤＢＳＣＡＮ（Density-based spatial clustering of applications with noise）法などのクラスタリングアルゴリズムを利用して、特徴空間上にマッピングされたラベルありデータの集合をクラスタリングし、既存の識別辞書の分類クラスに対応するラベルありクラスタを生成する。

本実施形態では、上述のように行動Ａ、行動Ｂ、行動Ｃの３つの分類クラスがあるため、図３に示すように、行動Ａに対応するラベルありクラスタａ、行動Ｂに対応するラベルありクラスタｂ、行動Ｃに対応するラベルありクラスタｃの３つのラベルありクラスタが生成される。図２に示したセンサデータのうち、分類クラスとして行動Ａのラベルが教示されたラベルありデータＤ１はラベルありクラスタａに属し、分類クラスとして行動Ｂのラベルが教示されたラベルありデータはラベルありクラスタｂに属する。

図４は、ラベルなしクラスタの一例を示す図である。クラスタリング部２は、ラベルありデータの場合と同様に、ラベルなしデータのそれぞれを多次元ベクトルである特徴量に変換し、多次元の特徴空間上にマッピングする。そして、クラスタリング部２は、例えばＸ−ｍｅａｎｓ法やＤＢＳＣＡＮ法などのクラスタリングアルゴリズムを利用して、特徴空間上にマッピングされたラベルなしデータの集合をクラスタリングし、分類クラスが明らかでないラベルなしクラスタを生成する。なお、図４中、特徴空間上におけるラベルありクラスタａ，ｂ，ｃの範囲を破線で示している。

図４では、３つのラベルありクラスタａ，ｂ，ｃのいずれにも重ならないラベルなしクラスタｄと、ラベルありクラスタｃに内包されるラベルなしクラスタｅが生成された例を示している。図２に示したセンサデータのうち、ラベルなしデータＤ３はラベルなしクラスタｄに属し、ラベルなしデータＤ４はラベルなしクラスタｅに属するものとする。

評価部３は、クラスタリング部２により生成されたラベルありクラスタの特徴空間上における分布に対する、ラベルなしクラスタの特徴空間上における分布の重なり状態を評価する。クラスタ同士の分布の重なり状態は、例えば、それぞれのクラスタの分布パラメータ（統計量）を用いて算出される距離尺度を用いて評価することができる。ここで、クラスタＸに属するセンサデータが正規分布で近似できると仮定すれば、クラスタＸに属するセンサデータの平均μ_Ｘと分散σ_Ｘを、クラスタＸの分布パラメータと設定できる。

正規分布間の距離としては、例えばＫＬダイバージェンス（Kullback-Leibler divergence）などが利用できる。ＫＬダイバージェンスは２つの確率分布の近さを表現する指標の一つであり、比較対象となる２つの分布がいずれも正規分布Ｎ_１（μ_１,σ_１)、Ｎ２（μ_２,σ_２）で表現できるならば、ＫＬダイバージェンスは下記式（１）により算出することができ、値が小さいほど２つの分布が近いことを示している。

この式（１）からは、２つの分布の平均μが離れるほど、また、分散σの大きさの違いが大きくなるほどＫＬダイバージェンスの値は大きくなり、２つの分布は異なることが分かる。

本実施形態では、ラベルありクラスタの分布に対するラベルなしクラスタの分布の重なり状態が、以下のパターン１〜６の６つのパターンのいずれに当てはまるかを判定するものとする。
パターン１：ラベルなしクラスタの分布が、どのラベルありクラスタの分布とも重ならない。
パターン２：ラベルなしクラスタの分布が、１つのラベルありクラスタの分布に一部重なる。
パターン３：ラベルなしクラスタの分布が、複数のラベルありクラスタの分布に一部重なる。
パターン４：ラベルなしクラスタの分布が、ラベルありクラスタに内包される。
パターン５：複数のラベルなしクラスタの分布が、ラベルありクラスタの分布に内包される。
パターン６：ラベルなしクラスタの分布が、ラベルありクラスタの分布を包含する。

評価部３は、まず、クラスタリング部２により生成されたラベルなしクラスタの分布とラベルありクラスタの分布との組み合わせのそれぞれついて、上述のＫＬダイバージェンスの値を算出し、得られた値を第１閾値および第２閾値と比較する。第１閾値は、２つの分布の一方が他方を包含するように重なるかどうかを判定する閾値であり、比較的低い値に設定される。第２閾値は、２つの分布が重なるか重ならないかを判定する閾値であり、第１閾値よりも高い値に設定される。ＫＬダイバージェンスの値が第１閾値以上かつ第２閾値未満の場合は、２つの分布の一部が重なることを示している。

ここで、すべてのラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタがあった場合、そのラベルなしクラスタは、上述のパターン１に当てはまると判定できる。

また、１つのラベルありクラスタとの間のＫＬダイバージェンスの値が第１閾値以上かつ第２閾値未満であり、その他のラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタがあった場合、そのラベルなしクラスタは、上述のパターン２に当てはまると判定できる。

また、複数のラベルありクラスタとの間のＫＬダイバージェンスの値がそれぞれ第１閾値以上かつ第２閾値未満であり、その他のラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタがあった場合、そのラベルなしクラスタは、上述のパターン３に当てはまると判定できる。

また、１つのラベルありクラスタとの間のＫＬダイバージェンスの値が第１閾値未満であり、その他のラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタがあった場合、そのラベルなしクラスタは、上述のパターン４〜６のいずれかのパターンに当てはまると判定できる。すなわち、そのラベルなしクラスタは、１つのラベルありクラスタに内包される、あるいは、１つのラベルありクラスタを包含するように、そのラベルありクラスタと重なっていると判定できる。

ラベルなしクラスタがラベルありクラスタに内包されるのか、あるいは、ラベルなしクラスタがラベルありクラスタを包含するのかは、例えば、ラベルなしクラスタとラベルありクラスタそれぞれの分散σの大きさを比較することで判定できる。すなわち、ラベルなしクラスタの分散σがラベルありクラスタの分散σよりも小さければ、ラベルなしクラスタがラベルありクラスタに内包されると判定できる。一方、ラベルなしクラスタの分散σがラベルありクラスタの分散σよりも大きければ、ラベルなしクラスタがラベルありクラスタを包含すると判定できる。

なお、同じラベルありクラスタと重なるラベルなしクラスタが複数あった場合は、それらのラベルなしクラスタは共通のラベルありクラスタに内包されるので、分散σの大きさを比較することなく、それらのラベルなしクラスタは上述のパターン５に当てはまると判定できる。すなわち、共通のラベルありクラスタとの間のＫＬダイバージェンスの値が第１閾値未満であり、その他のラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタが複数あった場合、それらのラベルなしクラスタは、上述のパターン５に当てはまると判定できる。

したがって、上述のパターン５に当てはまる場合を除いて、１つのラベルありクラスタとの間のＫＬダイバージェンスの値が第１閾値未満であり、その他のラベルありクラスタとの間のＫＬダイバージェンスの値がいずれも第２閾値以上のラベルなしクラスタがあった場合、そのラベルなしクラスタの分散σの大きさと、そのラベルなしクラスタと重なるラベルありクラスタの分散σの大きさを比較する。そして、ラベルなしクラスタの分散σが、ラベルありクラスタの分散σより小さければ、そのラベルなしクラスタは上述のパターン４に当てはまると判定できる。逆に、そのラベルなしクラスタの分散σが、そのラベルなしクラスタと重なるラベルありクラスタの分散σより大きければ、そのラベルなしクラスタは上述のパターン６に当てはまると判定できる。

ここで、クラスタリング部２により図３に示すラベルありクラスタａ，ｂ，ｃと図４に示すラベルなしクラスタｄ，ｅが生成された場合を例に挙げて、評価部３によるクラスタの重なり状態の評価の具体例を説明する。

図５は、クラスタごとの分布パラメータの一例を示す図であり、図６は、図５の分布パラメータを用いて算出したラベルなしデータとラベルありデータとの間のＫＬダイバージェンスの値を示す図である。例えば、上述の第１閾値として１．０の値が設定され、第２閾値として３．０の値が設定された場合、ラベルなしクラスタｄは、ラベルありクラスタａ，ｂ，ｃのそれぞれとの間で算出されたＫＬダイバージェンスの値がいずれも第２閾値以上であるため、上述のパターン１に当てはまると判定される。また、ラベルなしクラスタｅは、ラベルありクラスタｃとの間で算出されたＫＬダイバージェンスの値が第１閾値未満であり、ラベルありクラスタａ，ｂとの間で算出されたＫＬダイバージェンスの値がいずれも第２閾値以上であるため、ラベルありクラスタｃに内包またはラベルありクラスタｃを包含すると判定される。そして、ラベルなしクラスタｅの分散σとラベルありクラスタｃの分散σとを比較すると、ラベルなしクラスタｅの分散σの方が小さいため、ラベルなしクラスタｅは上述のパターン４に当てはまると判定される。

学習属性決定部４は、それぞれのラベルなしクラスタに対して評価部３により評価されたラベルありクラスタとの重なり状態の評価結果に基づいて、それぞれのラベルなしクラスタに属する各ラベルなしデータの学習属性を決定する。学習属性は、例えば、そのラベルなしデータが識別辞書の更新のための学習用データとして有用か否かを示す「有用性」の項目と、そのラベルなしデータが、分類クラスの追加、分類クラスの範囲拡大、分類クラスの細分化、分類クラスの統合、のいずれの形態で識別辞書の分類クラスを再構築するための学習用データとして有用かを示す「再構成タイプ」の項目とを含む。「有用性」の項目の値は、「有用」または「無用」のいずれかに設定される。「再構成タイプ」の項目の値は、「追加」、「拡大」、「細分化」、「統合」のいずれかに設定される。なお、「有用性」の項目が「無用」の場合、「再構成タイプ」の項目には値が設定されない。

ラベルありクラスタに対する重なり状態が、上述のパターン１、パターン２、パターン３、パターン５、パターン６のいずれかに当てはまるラベルなしクラスタに属するラベルなしデータは、これらを学習用データに用いて既存の識別辞書の更新を行うことで、既存の識別辞書の分類クラスの再構成に寄与する。このため、これらのラベルなしデータの学習属性の「有用性」の項目の値は、「有用」に決定される。一方、ラベルありクラスタに対する重なり状態が、上述のパターン４に当てはまるラベルなしクラスタに属するラベルなしデータは、これらを学習用データに用いて既存の識別辞書を更新しても分類クラスの再構成に寄与しないため、これらのラベルなしデータの学習属性の「有用性」の項目の値は、「無用」に決定される。

また、ラベルありクラスタに対する重なり状態が上述のパターン１に当てはまるラベルなしクラスタに属するラベルなしデータは、識別辞書の分類クラスを追加するための学習用データとして有用である。このため、これらのラベルなしデータの学習属性の「再構成タイプ」の項目の値は、「追加」に決定される。

また、ラベルありクラスタに対する重なり状態が上述のパターン２またはパターン６に当てはまるラベルなしクラスタに属するラベルなしデータは、識別辞書のいずれかの分類クラスの範囲を拡大するための学習用データとして有用である。このため、これらのラベルなしデータの学習属性の「再構成タイプ」の項目の値は、「拡大」に決定される。

また、ラベルありクラスタに対する重なり状態が上述のパターン３に当てはまるラベルなしクラスタに属するラベルなしデータは、識別辞書の複数の分類クラスを統合するための学習用データとして有用である。このため、これらのラベルなしデータの学習属性の「再構成タイプ」の項目の値は、「統合」に決定される。

また、ラベルありクラスタに対する重なり状態が上述のパターン５に当てはまるラベルなしクラスタに属するラベルなしデータは、識別辞書のいずれかの分類クラスを細分化するための学習用データとして有用である。このため、これらのラベルなしデータの学習属性の「再構成タイプ」の項目の値は、「細分化」に決定される。

学習属性の「再構成タイプ」の項目の値が「追加」、「統合」、「細分化」のいずれかに決定されたラベルなしデータを学習用データに用いると、識別辞書に新たな分類クラスが生成されることになる。したがって、これらのラベルなしデータを学習用データに用いる場合には、新たに生成される分類クラスのラベル教示が必要となる。学習属性の「再構成タイプ」の項目は、このようにラベルなしデータにラベル教示が必要か否かを判断するためにも利用できる。

なお、半教師あり学習により識別辞書を更新する場合は、教示されたラベルを類似のデータに伝播させることができるので、同じラベルなしクラスタに属するラベルなしデータについてはその一部にラベル教示すればよい。各々のラベルなしデータがラベル教示を必要とするセンサデータか否かを一意に判断できるように、上述の「再構成タイプ」に加え、または「再構成タイプ」の代わりに、ラベル教示が必要か否かを示す項目を学習属性に加えてもよい。

学習属性決定部４は、以上のようにラベルなしクラスタに属する各ラベルなしデータの学習属性を決定し、例えば図７に示すように、ラベルなしデータのデータ番号に学習属性を対応付けた情報を出力する。図７では、図４に示したラベルなしクラスタｄに属するラベルなしデータＤ３には、「有用性」が「有用」、「再構成タイプ」が「追加」の学習属性が対応付けられ、図４に示したラベルなしクラスタｅに属するラベルなしデータＤ４には、「有用性」が「無用」の学習属性が対応付けられた例を示している。

図８は、ラベルなしクラスタの他の例を示す図である。クラスタリング部２により図８に示すようなラベルなしクラスタｆが生成された場合は、評価部３により、このラベルなしクラスタｆのラベルありクラスタａ，ｂ，ｃに対する重なり状態が、上述のパターン２に当てはまると判定される。この場合、学習属性決定部４により、このラベルなしクラスタｆに属する各ラベルなしデータの学習属性は、「有用性」の項目の値が「有用」、「再構成タイプ」の項目の値が「拡大」に決定される。そして、これらのラベルなしデータのデータ番号と学習属性とを対応付けた情報が、学習属性決定部４から出力される。これらのラベルなしデータは、既存の識別辞書の分類クラス（行動Ｃの分類クラス）の範囲を拡大するために用いられるため、ラベル教示は不要である。

図９は、ラベルなしクラスタの他の例を示す図である。クラスタリング部２により図９に示すようなラベルなしクラスタｇ，ｈ，ｉが生成された場合は、評価部３により、ラベルなしクラスタｇ，ｆのラベルありクラスタａ，ｂ，ｃに対する重なり状態は上述のパターン５に当てはまると判定され、ラベルなしクラスタｉのラベルありクラスタａ，ｂ，ｃに対する重なり状態は上述のパターン３に当てはまると判定さる。この場合、学習属性決定部４により、ラベルなしクラスタｇ，ｈに属する各ラベルなしデータの学習属性は、「有用性」の項目の値が「有用」、「再構成タイプ」の項目の値が「細分化」に決定される。また、ラベルなしクラスタｉに属する各ラベルなしデータの学習属性は、「有用性」の項目の値が「有用」、「再構成タイプ」の項目の値が「統合」に決定される。そして、これらのラベルなしデータのデータ番号と学習属性とを対応付けた情報が、学習属性決定部４から出力される。

図１０は、本実施形態の更新支援装置の動作例を示すフローチャートである。本実施形態の更新支援装置は、例えば、１日１回などの予め定めた頻度で、あるいは、ラベルなしデータが所定量蓄積された場合などの予め定めたタイミングで図１０のフローチャートで示す一連の処理を実行する。なお、図１０の各ステップの具体的な内容は上述した通りであるので、ここでは処理の流れのみを説明する。

図１０のフローチャートで示す処理が開始されると、まず、取得部１が、ラベルありデータとラベルなしデータとを含むセンサデータと、既存の識別辞書とを取得する（ステップＳ１０１）。次に、クラスタリング部２が、ステップＳ１０１で取得されたラベルありデータの集合を、ステップＳ１０１で取得された識別辞書に対応する特徴空間上でクラスタリングし、ラベルありクラスタを生成する（ステップＳ１０２）。また、クラスタリング部２は、ステップＳ１０１で取得されたラベルなしデータの集合を同じ特徴空間上でクラスタリングし、ラベルなしクラスタを生成する（ステップＳ１０３）。

次に、評価部３が、ステップＳ１０３で生成されたラベルなしクラスタのそれぞれについて、ステップＳ１０２で生成されたラベルありクラスタの分布に対するラベルなしクラスタの分布の重なり状態を評価する（ステップＳ１０４）。そして、学習属性決定部４が、ステップＳ１０４での評価結果に基づいて、ステップＳ１０３で生成されたラベルなしクラスタに属する各ラベルなしデータの学習属性を決定し（ステップＳ１０５）、ラベルなしデータのデータ番号と学習属性とを対応付けた情報を出力する（ステップＳ１０６）。

以上、具体的な例を挙げながら詳細に説明したように、本実施形態の更新支援装置は、既存の識別辞書を更新するための学習用データの候補となるラベルなしデータについて、そのラベルなしデータが学習用データとして有用か否かを示す「有用性」の項目と、そのラベルなしデータがどういった形態で分類クラスを再構築するために有用かを示す「再構築タイプ」の項目を持つ学習属性を決定するようにしている。したがって、ユーザは、例えば、学習属性の「有用性」の項目が「有用」であるラベルなしデータ、つまり追加学習用データの数や割合が大きくなった場合に、識別辞書の更新が必要になったと判断することができ、また、その追加学習用データを用いれば識別辞書を適切に更新できると判断することができる。さらに、追加学習用データの学習属性の「再構成タイプ」により、識別辞書を更新することで分類クラスがどのように再構成されるかを予測することができ、また、追加学習用データにラベル教示が必要かどうかを判断することができる。

このように、本実施形態の更新支援装置は、既存の識別辞書の更新要否や学習用データに有用なセンサデータを判断するための情報をユーザに与え、識別辞書の更新を適切に支援することができる。

なお、以上説明した例では、取得部１がラベルありデータを含むセンサデータを取得し、クラスタリング部２がラベルありクラスタを生成してラベルありクラスタの分布パラメータを求めるようにしているが、ラベルありクラスタの分布パラメータが既知であれば、ラベルありデータの取得およびラベルありクラスタの生成は不要である。この場合、クラスタリング部２は、ラベルなしクラスタのみを生成し、評価部３は、クラスタリング部２が生成したラベルなしクラスタの分布パラメータと、既知のラベルありクラスタの分布パラメータとを用いて、ラベルありクラスタの分布に対するラベルなしクラスタの分布の重なり状態を評価すればよい。

また、以上説明した例では、ラベルありクラスタの分布に対するラベルなしクラスタの分布の重なり状態を評価するためにＫＬダイバージェンスの値を用いたが、分布の重なり状態を評価する方法はこれに限らない。例えば、Histogram Intersection、ＪＳダイバージェンス、Ｌ１ノルム、Ｌ２ノルムなど、分布の関係を評価できる他の指標を用いてラベルありクラスタの分布に対するラベルなしクラスタの分布の重なり状態を評価してもよい。また、分布の重なり状態は、上述のパターン１〜６のいずれに当てはまるかを評価する例に限らず、ラベルなしデータの有用性を判断可能な様々な観点で評価してもよい。

また、以上説明した例では、ラベルなしデータの学習属性が「有用性」と「再構成タイプ」の２つの項目を含むものとして説明したが、ラベルなしデータの学習属性は、少なくとも「有用性」の項目を含めばよく、「有用性」の項目のみを持つ学習属性であってもよいし、例えばラベル教示の要否を示す項目など、他の項目をさらに含む学習属性であってもよい。

＜第２実施形態＞
次に、第２実施形態について説明する。本実施形態の更新支援装置は、上述の第１実施形態の更新支援装置に対して、学習属性決定部４が出力する情報に基づいて既存の識別辞書の更新要否を判定し、既存の識別辞書の更新が必要と判断した場合に識別辞書の更新を促す情報をユーザに提示する機能を付加したものである。なお、その他の構成および動作は上述の第１実施形態と同様であるため、以下では、第１実施形態との共通部分は同一の符号を用いて重複した説明を適宜省略し、本実施形態に特徴的な部分についてのみ説明する。

図１１は、第２実施形態に係る更新支援装置の機能的な構成例を示すブロック図である。本実施形態の更新支援装置は、図１１に示すように、上述の第１実施形態の更新支援装置（図１参照）に対し、提示部５が追加された構成となっている。

提示部５は、学習属性決定部４が出力する情報に基づいて、既存の識別辞書の更新要否を判定する。例えば、提示部５は、取得部１により取得された上述のラベルなしデータの集合のうち、学習属性により学習用データとして有用であることが示された追加学習用データが占める割合が所定の基準値を超えた場合に、既存の識別辞書の更新が必要と判断する。また、提示部５は、取得部１により取得された上述のラベルなしデータのうち、追加学習用データの総数が所定の基準値を超えた場合に、既存の識別辞書の更新が必要と判断してもよい。提示部５は、既存の識別辞書の更新が必要と判断した場合に、識別辞書の更新を促す情報をユーザに提示する。

このとき、提示部５は、ラベルなしデータの集合のうちで追加学習用データが占める割合、または、追加学習用データの総数の経時的な変化を表す情報を、識別辞書の更新を促す情報と併せて提示するようにしてもよい。ラベルなしデータの集合のうちで追加学習用データが占める割合や追加学習用データの総数の経時的な変化は、例えば、学習属性決定部４が過去に出力した情報を保持しておき、学習属性決定部４が出力した最新の情報と併せてこれら過去の情報を分析することにより把握できる。

図１２は、学習属性決定部４が出力した最新の情報を過去の情報と対比して示す図であり、（ａ）が２ヶ月前の情報の一例、（ｂ）が１ヶ月前の情報の一例、（ｃ）が最新の情報の一例をそれぞれ示している。この図１２に示す例では、時間の経過とともに、学習属性の「有用性」の項目が「有用」の追加学習用データが増加していることが分かる。

図１３は、提示部５が提示する情報の一例を示す図である。提示部５は、例えば、ラベルなしデータの集合のうちで追加学習用データが占める割合が所定の基準値を超えた場合に、例えば図１３に示すＵＩ（ユーザインタフェース）画面１０を表示装置に表示させることにより、既存の識別辞書を更新する必要性をユーザに認識させることができる。

このＵＩ画面１０は、図１３に示すように、既存の識別辞書の更新を促すメッセージ１１と、追加学習用データの割合の経時的な変化を示すグラフ１２とを含む。識別辞書の更新を促すメッセージ１１には、「更新」ボタン１３と「現状維持」ボタン１４とが併せて表示される。「更新」ボタン１３が押されると、追加学習用データを学習用データに追加して既存の識別辞書の更新が行われる。一方、「現状維持」ボタン１４が押された場合は、識別辞書の更新は行われない。

追加学習用データの割合の経時的な変化を示すグラフ１２は、白の部分が追加学習用データを表し、黒の部分が、学習属性の「有用性」の項目が「無用」のセンサデータを表している。ユーザは、ＵＩ画面１０上でこのグラフ１２を確認することにより、追加学習用データの増加傾向を一目で把握することができ、追加学習用データが急激に増加している場合に「更新」ボタン１３を押して既存の識別辞書の更新を行うなど、適切なタイミングで識別辞書の更新を行うことができる。

なお、図１３に示すＵＩ画面１０では、追加学習用データの割合の経時的な変化を示すグラフ１２を表示しているが、追加学習用データの総数を表すグラフを表示してもよい。また、追加学習用データの割合や総数をグラフではなく数値で表してもよい。また、追加学習用データを、学習属性の「再構成タイプ」の値ごとに分けて表示してもよい。

以上説明したように、本実施形態の更新支援装置は、学習属性決定部４が出力する情報に基づいて既存の識別辞書の更新要否を判定し、既存の識別辞書の更新が必要と判断した場合に識別辞書の更新を促す情報をユーザに提示するようにしている。したがって、ユーザは、この情報を参照することで既存の識別辞書の更新が必要であることを容易に判断することができる。

また、本実施形態の更新支援装置によれば、識別辞書の更新を促す情報と併せて、ラベルなしデータの集合のうちで追加学習用データが占める割合、または、追加学習用データの総数の経時的な変化を表す情報が提示されるので、ユーザは、追加学習用データの増加傾向を一目で把握することができ、適切なタイミングで識別辞書の更新を行うことができる。

＜第３実施形態＞
次に、第３実施形態について説明する。本実施形態の更新支援装置は、上述の第２実施形態の更新支援装置に対して、追加学習用データの優先度を決定し、優先度が高い順に追加学習用データをユーザに提示する機能を付加したものである。学習属性の「再構成タイプ」の値によりラベル教示が必要とされる追加学習用データは、ユーザによるラベル教示を受け付け可能に提示される。なお、その他の構成および動作は上述の第１実施形態および第２実施形態と同様であるため、以下では、第１実施形態および第２実施形態との共通部分は同一の符号を用いて重複した説明を適宜省略し、本実施形態に特徴的な部分についてのみ説明する。

図１４は、第３実施形態に係る更新支援装置の機能的な構成例を示すブロック図である。本実施形態の更新支援装置は、図１４に示すように、上述の第２実施形態の更新支援装置（図１１参照）に対し、優先度決定部６が追加された構成となっている。また、学習属性決定部４が出力する情報は、優先度決定部６を介して提示部５に渡される。

優先度決定部６は、学習属性決定部４が出力する情報を受け取り、追加学習用データの優先度を決定する。優先度は、既存の識別辞書の更新に用いる学習用データとしての有用性の高さを示す。本実施形態では、クラスタリング部２によるクラスタリングの結果を用いてラベルなしデータの確信度を求め、確信度が低いほど優先度が高いと判断するものとする。確信度は、既存の識別辞書の分類クラスに分類されることの確からしさを示すものであり、確信度が低いほど学習用データとしての有用性が高いことを示している。確信度は、例えば、既存の識別辞書に対応する特徴空間におけるラベルありクラスタの中心（セントロイド）からの距離に基づいて算出する方法などが考えられる。また、既存の識別辞書がセンサデータに対する分類結果の確信度を出力する構成であれば、既存の識別辞書が出力する確信度を用いてもよい。

優先度決定部６は、例えば、クラスタリング部２によるクラスタリングの結果を用いて、学習属性が付与されたラベルなしデータの各々の確信度を算出する。そして、学習属性決定部４が出力する情報に対して各ラベルなしデータの確信度を追加し、確信度が低い順（つまり、優先度が高い順）にラベルなしデータをソートして、提示部５に渡す。各ラベルなしデータの確信度が付与された情報の一例を図１５に示し、確信度が低い順にラベルなしデータがソートされた情報の一例を図１６に示す。図１６の例では、学習用データとしての有用性が高い追加学習用データほど上位に配置されていることが分かる。

本実施形態の提示部５は、例えば図１３に示したＵＩ画面１０上で「更新」ボタン１３が押された場合に、優先度決定部６から渡される図１６に示すような情報に基づいて、追加学習用データを優先度が高い順にユーザに提示する。このとき提示部５は、追加学習用データの学習属性の「再構成タイプ」の項目の値からラベル教示の必要性を判断し、ラベル教示が必要とされる追加学習用データは、ユーザによるラベル教示を受け付け可能に提示する。

図１７は、提示部５が提示する情報の一例を示す図である。提示部５は、例えば、図１３に示したＵＩ画面１０上で「更新」ボタン１３が押された場合に、図１７に示すような教示画面２０をポップアップ表示させることで、追加学習用データを、ユーザによるラベルの教示操作を受け付け可能にユーザに提示する。なお、本実施形態では、システムの運用環境にカメラが設置され、ユーザが作業行動を実施したときの様子がカメラにより撮影されているものとする。

この教示画面２０は、追加学習用データ（センサデータ）の波形２１と、そのセンサデータが出力された際に撮影された画像２２と、ラベル教示用ボタン２３，２４とを含む。ラベル教示用ボタン２３は、新規の作業行動のラベルを教示するために操作するボタンであり、ラベル教示用ボタン２４は、既知の作業行動（本実施形態では、行動Ａ、行動Ｂ、行動Ｃ）のラベルを教示するために操作するボタンである。これらは追加学習用データごとに表示され、表示の順番は優先度が高い順である。

この教示画面２０を参照したユーザは、波形２１および画像２２を確認しながら、ラベル教示用ボタン２３，２４を用いて追加学習用データのラベルを教示する操作を行うことができる。例えば、ラベル教示用ボタン２３を押すとテキストボックスが表示され、このテキストボックスに新規の作業行動の名前などを入力することで、新規の作業行動に対応する新規の分類クラスのラベルを教示することができる。また、ラベル教示用ボタン２４のうちのいずれかを押すと、既知の作業行動に対応する既知の分類クラスのラベルを教示することができる。そして、ラベルが教示された追加学習用データは、既存の識別辞書の更新に用いる学習データに追加される。

なお、ラベル教示が不要とされる追加学習用データを提示する際は、ラベル教示用ボタン２３，２４の代わりに、その追加学習用データを既存の識別辞書の更新に用いる学習データに追加するか否かを選択するためのボタンを表示する構成とすればよい。なお、追加学習用データに対するラベル教示が必要か否かは、上述のように、学習属性の「再構成クラス」の値に基づいて判断するだけでなく、同じラベルなしクラスタに属する他の追加学習用データとの関係も用いて判断してもよい。すなわち、ラベルなしクラスタごとに、そのラベルなしクラスタに属する追加学習用データのうちでラベル教示が必要なものと必要でないものとを分けてもよい。この場合、ラベルなしクラスタの中心（セントロイド）に近い追加学習用データと、ラベルなしクラスタの境界に近い追加学習用データを、ラベル教示が必要な追加学習用データに選定するとよい。

また、同じラベルなしクラスタに属し、距離が近い追加学習用データ同士を１つのグループにまとめ、各グループ内で１つの追加学習用データを選定してユーザに提示するようにしてもよい。そして、提示した追加学習用データに対してユーザがラベルを教示する操作または学習用データに追加する操作を行った場合に、提示した追加学習用データと同じグループに属する他の追加学習用データも、既存の識別辞書を更新するための学習用データに追加するようにしてもよい。

以上説明したように、本実施形態の更新支援装置は、追加学習用データの優先度を決定し、優先度が高い順に追加学習用データをユーザに提示する。また、ラベル教示が必要とされる追加学習用データについては、ユーザによるラベル教示を受け付け可能に提示する。したがって、ユーザは、既存の識別辞書の更新に用いる学習用データとしての有用性が高いものから順に追加学習用データを確認し、必要に応じてその追加学習用データに対するラベル教示を行うことができ、識別辞書の更新を効率よく行うことができる。

＜補足説明＞
上述した各実施形態の更新支援装置は、例えば、汎用のコンピュータ装置を基本ハードウェアとして用いることで実現することが可能である。すなわち、上述の更新支援装置の各部の機能は、汎用のコンピュータに搭載された１以上のプロセッサにプログラムを実行させることにより実現することができる。このとき、更新支援装置は、上記のプログラムをコンピュータに予めインストールすることで実現してもよいし、コンピュータ読み取り可能な記憶媒体に上記のプログラムを記憶して、あるいはネットワークを介して上記のプログラムを配布して、このプログラムをコンピュータに適宜インストールすることで実現してもよい。

図１８は、上述した各実施形態の更新支援装置のハードウェア構成例を示すブロック図である。更新支援装置は、例えば図１８に示すように、ＣＰＵ（Central Processing Unit）などのプロセッサ１０１と、ＲＡＭ（Random Access Memory）やＲＯＭ（Read Only Memory）などのメモリ１０２と、ＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）などのストレージデバイス１０３と、液晶パネルなどの表示装置１０６やキーボードやポインティングデバイスなどの入力装置１０７といった機器を接続するための機器Ｉ／Ｆ１０４と、装置外部と通信を行う通信Ｉ／Ｆ１０５と、これら各部を接続するバス１０８とを備えた一般的なコンピュータとしてのハードウェア構成を有する。

上述した各実施形態の更新支援装置を図１８に示すハードウェア構成により実現する場合、例えば、プロセッサ１０１がメモリ１０２を利用して、ストレージデバイス１０３などに格納されたプログラムを読み出して実行することにより、上述の取得部１、クラスタリング部２、評価部３、学習属性決定部４、提示部５および優先度決定部６などの各部の機能を実現することができる。

なお、上述の各実施形態の更新支援装置の各部の機能は、その一部または全部を、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field-Programmable Gate Array）などの専用のハードウェア（汎用のプロセッサではなく専用のプロセッサ）により実現することもできる。また、複数のプロセッサを用いて上述した各部の機能を実現する構成であってもよい。

また、上述の各実施形態の更新支援装置は、複数台のコンピュータ装置を用い、上述の各部の機能を複数台のコンピュータ装置に分散して実現した更新支援システムとして構成してもよい。また、上述の各実施形態の更新支援装置は、クラウドシステム上のサーバ装置として構成してもよいし、クラウドシステム上で動作する仮想マシンであってもよい。

以上、本発明の実施形態を説明したが、ここで説明した実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。ここで説明した新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。ここで説明した実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１取得部
２クラスタリング部
３評価部
４学習属性決定部
５提示部
６優先度決定部

Claims

センサデータを１つ以上の分類クラスに分類するための識別辞書の更新を支援する更新支援装置であって、
分類クラスを示すラベルが未教示のセンサデータであるラベルなしデータの集合を前記識別辞書に対応する特徴空間上でクラスタリングして、１つ以上のラベルなしクラスタを生成するクラスタリング部と、
前記ラベルが教示され前記識別辞書の生成に用いられたセンサデータであるラベルありデータの集合を前記特徴空間上でクラスタリングすることで生成された１つ以上のラベルありクラスタの前記特徴空間における分布に対する、前記ラベルなしクラスタの前記特徴空間における分布の重なり状態を評価する評価部と、
前記重なり状態の評価結果に基づいて、前記ラベルなしクラスタに属する各ラベルなしデータに対し、少なくとも、該ラベルなしデータが前記識別辞書の更新のための学習用データとして有用か否かを示す項目を含む学習属性を決定する学習属性決定部と、
を備える更新支援装置。
前記学習属性は、さらに、前記ラベルなしクラスタに属する各ラベルなしデータが、分類クラスの追加、分類クラスの範囲拡大、分類クラスの細分化、分類クラスの統合、のいずれの形態で分類クラスを再構築するための学習用データとして有用かを示す項目を含む、
請求項１に記載の更新支援装置。
前記評価部は、前記ラベルなしクラスタの分布を表す統計量と前記ラベルありクラスタの分布を表す統計量とを用いて算出される距離尺度により、前記重なり状態を評価する、
請求項１または２に記載の更新支援装置。
前記クラスタリング部は、さらに、前記ラベルありデータの集合を前記特徴空間上でクラスタリングして、１つ以上の前記ラベルありクラスタを生成する、
請求項１乃至３のいずれか一項に記載の更新支援装置。
前記ラベルなしデータの集合のうち、前記学習属性により前記学習用データとして有用であることが示された前記ラベルなしデータである追加学習用データが占める割合、または、前記追加学習用データの総数が、所定の基準値を超えた場合に、前記識別辞書の更新を促す情報を提示する提示部をさらに備える、
請求項１乃至４のいずれか一項に記載の更新支援装置。
前記提示部は、さらに、前記ラベルなしデータの集合のうち前記追加学習用データが占める割合、または、前記追加学習用データの総数の経時的な変化を表す情報を提示する、
請求項５に記載の更新支援装置。
前記提示部は、さらに、前記追加学習用データを、前記ラベルの教示操作を受け付け可能に提示する、
請求項５または６に記載の更新支援装置。
前記追加学習用データの優先度を決定する優先度決定部をさらに備え、
前記提示部は、前記追加学習用データを前記優先度が高い順に提示する、
請求項７に記載の更新支援装置。
前記優先度決定部は、前記特徴空間上での前記ラベルありクラスタに対する前記追加学習用データの距離を示す確信度に基づいて、前記追加学習用データの優先度を決定する、
請求項８に記載の更新支援装置。
センサデータを１つ以上の分類クラスに分類するための識別辞書の更新を支援する更新支援方法であって、
分類クラスを示すラベルが未教示のセンサデータであるラベルなしデータの集合を前記識別辞書に対応する特徴空間上でクラスタリングして、１つ以上のラベルなしクラスタを生成するステップと、
前記ラベルが教示され前記識別辞書の生成に用いられたセンサデータであるラベルありデータの集合を前記特徴空間上でクラスタリングすることで生成された１つ以上のラベルありクラスタの前記特徴空間における分布に対する、前記ラベルなしクラスタの前記特徴空間における分布の重なり状態を評価するステップと、
前記重なり状態の評価結果に基づいて、前記ラベルなしクラスタに属する各ラベルなしデータに対し、少なくとも、該ラベルなしデータが前記識別辞書の更新のための学習用データとして有用か否かを示す項目を含む学習属性を決定するステップと、
を含む更新支援方法。
センサデータを１つ以上の分類クラスに分類するための識別辞書の更新を支援する機能をコンピュータで実現するためのプログラムであって、
前記コンピュータに、
分類クラスを示すラベルが未教示のセンサデータであるラベルなしデータの集合を前記識別辞書に対応する特徴空間上でクラスタリングして、１つ以上のラベルなしクラスタを生成するステップと、
前記ラベルが教示され前記識別辞書の生成に用いられたセンサデータであるラベルありデータの集合を前記特徴空間上でクラスタリングすることで生成された１つ以上のラベルありクラスタの前記特徴空間における分布に対する、前記ラベルなしクラスタの前記特徴空間における分布の重なり状態を評価するステップと、
前記重なり状態の評価結果に基づいて、前記ラベルなしクラスタに属する各ラベルなしデータに対し、少なくとも、該ラベルなしデータが前記識別辞書の更新のための学習用データとして有用か否かを示す項目を含む学習属性を決定するステップと、
を実行させるプログラム。