JP7631246B2

JP7631246B2 - 認識装置、認識方法、およびプログラム

Info

Publication number: JP7631246B2
Application number: JP2022009531A
Authority: JP
Inventors: 康晋山内
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2022-01-25
Filing date: 2022-01-25
Publication date: 2025-02-18
Anticipated expiration: 2042-01-25
Also published as: US12460954B2; US20230236047A1; JP2023108413A

Description

本発明の実施形態は、認識装置、認識方法、およびプログラムに関する。

近年、プロセッサやセンサ性能の高度化、小型低消費電力化によって、低価格なウェアラブル機器が身近になり、日々の身体行動をロギング（ライフログ）するヘルスケアサービスが盛んに提案されている。また、その活用範囲を社会インフラ分野に拡げる動きも加速している。例えば、製造、物流、および点検などの作業現場において、作業者の身体行動をウェアラブル機器などのセンサにより取得し、ニューラルネットワークを用いてセンサデータから作業者の作業行動を認識する技術が知られている。

上記の技術として、例えば、センサデータから抽出した特徴量に対して、クラス識別貢献度に基づいて生成したアテンション情報により特徴量を加工することで識別を行う技術がある。しかし、この技術では、クラス識別貢献度は全てのセンサデータで共通したものを用いており、センサデータ毎に異なる特性を反映したものではない。

特開２０２０－１９０９６０号公報

本発明が解決しようとする課題は、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる認識装置、認識方法、およびプログラムを提供することである。

一実施形態に係る認識装置は、特徴量生成部と、特徴量変換部と、重要特徴量生成部と、特徴量統合部と、識別部とを備える。特徴量生成部は、センサデータに基づいて、センサデータの特徴を有する第１の特徴量を生成する。特徴量変換部は、第１の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換する。重要特徴量生成部は、第１の特徴量および第２の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。特徴量統合部は、第２の特徴量および重要特徴量に基づいて、第１の特徴量および第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する。識別部は、統合特徴量に基づいてクラスを識別する。

第１の実施形態に係る認識装置を含む認識システムの構成例を示すブロック図。第１の実施形態に係る認識装置の構成例を示すブロック図。第１の実施形態に係る認識装置に対応するネットワークモデルの構成例を示すブロック図。図３のネットワークモデルを用いた第１の具体例を説明する図。図３のネットワークモデルを用いた第２の具体例を説明する図。第１の実施形態に係る認識装置の動作例を示すフローチャート。第２の実施形態に係る認識装置の構成例を示すブロック図。第２の実施形態に係る認識装置の動作例を示すフローチャート。第３の実施形態に係る認識装置の構成例を示すブロック図。第３の実施形態に係る認識装置の動作例を示すフローチャート。一実施形態に係るコンピュータのハードウェア構成を例示するブロック図。

以下、図面を参照しながら、認識装置の実施形態について詳細に説明する。

（第１の実施形態）
図１は、第１の実施形態に係る認識装置１００を含む認識システム１の構成例を示すブロック図である。図１の認識システム１は、認識装置１００と、一つ以上のセンサとを備える。図１では、一つ以上のセンサとして、センサ１１０－１，１１０－２，…，１１０－ｎを例示する。認識装置１００と、センサ１１０－１，１１０－２，…，１１０－ｎとは、ネットワーク１２０を介して接続されている。尚、ネットワーク１２０の通信方式は、有線方式でも無線方式でもよい。また、通信方式は、有線方式と無線方式とが組み合わされていてもよい。以下では、センサ１１０－１，１１０－２，…，１１０－ｎのそれぞれを区別しない場合、単にセンサ１１０と称する。

センサ１１０は、認識対象の情報などを示すセンサデータを取得し、当該センサデータを認識装置１００へと送信する。センサデータは、例えば、加速度データ、角速度データ、地磁気データ、気圧データ、温湿度データ、体温データ、筋電位データ、および脈波データである。センサ１１０は、例えば、ウェアラブルセンサである。作業者がセンサ１１０を装着している場合、認識対象の情報は、例えば、センサ装着者の行動に関する情報（行動情報）などである。

なお、センサ１１０は、作業者に装着された撮影装置でもよいし、作業者を撮影する撮影装置でもよい。センサ１１０が撮影装置の場合、センサデータは、例えば、画像および三次元骨格データである。

ウェアラブルセンサを装着した人の行動を推定（認識）する場合に、対象となる動作および作業は、工場、フィールド、家庭、オフィス、およびフィットネスでそれぞれ異なり多岐に渡る。本明細書では、作業の種類（作業種）でくくられる作業環境を作業ドメインと呼ぶ。工場などの作業ドメインでは「台車移動」、「運搬」、「タッチパネル操作」、「筆記操作」、および「スイッチ操作」などが主要で共通した作業動作と想定することができる。一方で、倉庫などの物流現場では、荷物の「運搬」以外に「バーコード読込」、「ピッキング」、「梱包」、さらには「フォークリフト操作」といった作業が主要な作業種となる。異なる作業ドメイン間で学習モデルを再利用する際には、作業ドメインにより異なる作業種への対応が求められる。また、センサ構成が異なることによる影響も考慮しておく必要がある。例えば、認識精度を優先することを考えて、腕にセンサを装着する他に、足や体幹など複数の部位にセンサを装着することも考えられる。

図２は、第１の実施形態に係る認識装置１００の構成例を示すブロック図である。図２の認識装置１００は、センサ１１０からセンサデータを取得し、取得したセンサデータから、認識対象の情報（例えば、人の行動情報など）を認識する。認識装置１００は、特徴量生成部２１０と、特徴量変換部２２０と、重要特徴量生成部２３０と、特徴量統合部２４０と、識別部２５０とを備える。

特徴量生成部２１０は、センサ１１０から取得したセンサデータに基づいて、センサデータの特徴を有する第１の特徴量を生成する。特徴量生成部２１０は、第１の特徴量を特徴量変換部２２０および重要特徴量生成部２３０へと出力する。

特徴量変換部２２０は、特徴量生成部２１０から第１の特徴量を受け取る。特徴量変換部２２０は、第１の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換する。具体的には、特徴量変換部２２０は、第１の特徴量に対して、クラス識別において注目すべき特徴量を活性化することによって、第２の特徴量を生成する。特徴量変換部２２０は、第２の特徴量を重要特徴量生成部２３０、特徴量統合部２４０、および識別部２５０へと出力する。尚、上記のクラスについては後述される。

重要特徴量生成部２３０は、特徴量生成部２１０から第１の特徴量を受け取り、特徴量変換部２２０から第２の特徴量を受け取る。重要特徴量生成部２３０は、第１の特徴量および第２の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。具体的には、重要特徴量生成部２３０は、第１の特徴量および第２の特徴量の相互相関値を算出し、クラス識別において重要となる重要特徴量を生成する。また、この重要特徴量は、センサデータの信号特徴とも高い相関性がある。

特徴量統合部２４０は、特徴量変換部２２０から第２の特徴量を受け取り、重要特徴量生成部２３０から重要特徴量を受け取る。特徴量統合部２４０は、第２の特徴量および重要特徴量に基づいて、第１の特徴量および第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する。具体的には、特徴量統合部２４０は、重要特徴量および第２の特徴量を加算、或いは乗算して統合することによって統合特徴量を生成する。特徴量統合部２４０は、統合特徴量を識別部２５０へと出力する。

識別部２５０は、特徴量統合部２４０から統合特徴量を受け取る。識別部２５０は、統合特徴量に基づいてクラスを識別する。具体的には、識別部２５０は、統合特徴量を入力することによってクラスを出力するニューラルネットワークを用いることによって、統合特徴量に対応するセンサデータのクラスを識別する。

更に、識別部２５０は、第２の特徴量に基づいてクラスを識別してもよい。具体的には、識別部２５０は、特徴量変換部２２０から第２の特徴量を受け取る。識別部２５０は、第２の特徴量を入力することによってクラスを出力するニューラルネットワークを用いることによって、第２の特徴量に対応するセンサデータのクラスを識別する。

識別部２５０において識別されるクラスは、任意に定義されてよい。クラスは、例えば、行動、作業種、および作業動作である。具体的には、工場などの作業ドメインにおいて識別されるクラスは、例えば、「台車移動」、「運搬」、「タッチパネル操作」、「筆記操作」、および「スイッチ操作」などである。よって、識別部２５０は、センサ装着者の行動を識別することができる。

識別部２５０によるクラスの識別結果は、図１および図２に図示していないディスプレイなどに表示させてもよいし、記憶装置に記憶させてもよいし、無線接続または有線接続された他の装置へ送信してもよい。

以上、第１の実施形態に係る認識装置１００および認識システム１の構成について説明した。次に、第１の実施形態に係る認識装置１００に対応するネットワークモデルについて説明する。

図３は、第１の実施形態に係る認識装置１００に対応するネットワークモデルの構成例を示すブロック図である。図３のネットワークモデルは、図２の認識装置１００の各部を具体化した一例である。以降では、図２の認識装置１００の各部について具体的に説明する。

初めに、認識装置１００に入力されるセンサデータについて説明する。入力されるセンサデータは、センサ１１０のサンプリング間隔で取得された時系列データであって、特定のインターバル区間（所定のサンプリング数で規定される区間）に含まれる時系列データを所定のインターバル数でまとめたデータである。よって、認識装置１００におけるセンサデータの処理単位は、所定のインターバル数で規定される時間的に連続したセンサデータである。

また、上記のインターバル区間に含まれるセンサデータは、時系列センサ値であってもよいし、時系列センサ値をＦＦＴ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍ）などのアルゴリズムを用いて周波数領域に変換した周波数特徴量（周波数毎の信号強度値）であってもよい。例えば、複数のセンサは、それぞれ異なるサンプリング間隔で時系列データを取得している場合がある。この場合には、異なるサンプリング間隔のセンサデータを統一的に扱う必要があるため、以降の説明では、センサデータは、ＦＦＴなどを用いた周波数変換を施した周波数特徴量であるものとする。

特徴量生成部２１０は、一つ以上のニューラルネットワーク（ＮＮ：ＮｅｕｒａｌＮｅｔｗｏｒｋ）を含む。このＮＮは、例えば、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋ）が用いられる。具体的には、特徴量生成部２１０は、特徴量抽出用ＣＮＮ２１１と特徴量融合用ＣＮＮ２１２とを備える。

特徴量抽出用ＣＮＮ２１１は、特徴量を抽出するためのＣＮＮである。特徴量抽出用ＣＮＮ２１１は、例えば、センサデータの数に応じたインプット層を有する。特徴量抽出用ＣＮＮ２１１は、センサデータ毎に特徴量を出力する。以降では、センサ装着部位がそれぞれ異なる三つのセンサそれぞれについて、三種類のモダリティ（例えば、加速度計、角速度計、および地磁気計）からそれぞれデータを取得するものとする。

特徴量融合用ＣＮＮ２１２は、特徴量を融合するためのＣＮＮである。特徴量融合用ＣＮＮ２１２は、特徴量抽出用ＣＮＮ２１１から出力された複数の特徴量を融合する。特徴量の融合には、例えば、センサモダリティに関する融合およびセンサ装着部位に関する融合がある。センサモダリティに関する融合では、例えば、センサ装着部位は異なるがセンサモダリティが同じセンサデータを融合させる。この融合により、センサモダリティ特有のセンサの信号特徴を効率良く抽出することができる。また、センサ装着部位に関する融合では、例えば、センサモダリティは異なるがセンサ装着部位が同じセンサデータを融合させる。この融合により、センサ装着部位特有のセンサの信号特徴を効率良く抽出することができる。

なお、上記のセンサモダリティに関する融合およびセンサ装着部位に関する融合の両方の融合を行ってもよい。この融合により、センサモダリティおよびセンサ装着部位の双方が考慮された信号特徴を抽出することができる。

特徴量変換部２２０は、一つ以上のＮＮを含む。このＮＮは、例えば、ＣＮＮが用いられる。具体的には、特徴量変換部２２０は、特徴量変換用ＣＮＮ２２１を備える。

特徴量変換用ＣＮＮ２２１は、特徴量を変換するためのＣＮＮである。特徴量変換用ＣＮＮ２２１は、例えば、１×１サイズのカーネルを用いて、出力フィルタ数を識別対象となるクラスの数に設定したコンボリューション層を有する。ここで用いられるコンボリューション層は、当該フィルタに割り当てられたクラスの特徴を活性化するように構成される。特徴量変換用ＣＮＮ２２１は、第１の特徴量を上記のコンボリューション層に通すことによって、第２の特徴量を生成する。よって、第２の特徴量は、クラス活性化特徴量（ＣＡＭ：ＣｌａｓｓＡｃｔｉｖａｔｉｏｎＭａｐ）と呼ばれてもよい。

概括すると、特徴量変換部２２０は、フィルタに割り当てられたクラスを活性化するように、第１の特徴量を第２の特徴量に変換する。

重要特徴量生成部２３０は、一つ以上のＮＮを含む。このＮＮは、例えば、ＣＮＮが用いられる。具体的には、重要特徴量生成部２３０は、調整用ＣＮＮ２３１と、第１の乗算部２３２と、第２の乗算部２３３とを備える。

調整用ＣＮＮ２３１は、特徴量を調整するためのＣＮＮである。調整用ＣＮＮ２３１は、例えば、１×１サイズのカーネルを用いて、出力フィルタ数を識別対象となるクラスの数に設定したコンボリューション層を有する。ここで用いられるコンボリューション層は、センサデータの特徴を活性化するように構成される。また、調整用ＣＮＮ２３１から出力されるフィルタの数は、特徴量変換用ＣＮＮ２２１から出力されるフィルタの数と同じである。調整用ＣＮＮ２３１は、第１の特徴量を上記のコンボリューション層に通すことによって、汎用特徴量を生成する。よって、汎用特徴量は、第２の特徴量と同じフィルタ数を有する。

第１の乗算部２３２は、汎用特徴量と第２の特徴量とを乗算することによって特徴量重要度を生成する。具体的には、汎用特徴量と第２の特徴量とが同じサイズの行列で表される場合、第１の乗算部２３２は、汎用特徴量と第２の特徴量の転置行列との間で行列積を求め、フィルタ単位でソフトマックス関数を適用することにより特徴量重要度を生成する。

第２の乗算部２３３は、汎用特徴量と特徴量重要度とを乗算することによって重要特徴量を生成する。具体的には、汎用特徴量と特徴量重要度とが同じサイズの行列で表される場合、第２の乗算部２３３は、汎用特徴量の転置行列と特徴量重要度との間で行列積を求めることにより重要特徴量を生成する。

概括すると、重要特徴量生成部２３０は、第１の特徴量および第２の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。

特徴量統合部２４０は、加算部２４１を備える。加算部２４１は、第２の特徴量と重要特徴量とを加算することによって統合特徴量を生成する。

識別部２５０は、識別する特徴量の種類毎に識別部を有する。具体的には、識別部２５０は、第１識別部２５１と第２識別部２５２とを備える。

第１識別部２５１は、統合特徴量に基づいて認識対象のクラスを識別する。具体的には、第１識別部２５１は、ＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）およびＧＲＵ（ＧａｔｅｄＲｅｃｕｒｒｅｎｔＵｎｉｔ）などのＲＮＮ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋ）と、ソフトマックス関数を適用するソフトマックス層とを備える。第１識別部２５１は、ＲＮＮおよびソフトマックス層を用いて、統合特徴量を入力することによってクラスを出力するニューラルネットワークを構成する。第１識別部２５１での識別結果は、時間単位の学習データを反映している。尚、ソフトマックス層からの出力データは、クラス識別尤度と呼ばれてもよい。

第２識別部２５２は、第２の特徴量に基づいて認識対象のクラスを識別する。具体的には、第２識別部２５２は、ＧＡＰ（ＧｌｏｂａｌＡｖｅｒａｇｅＰｏｏｌｉｎｇ）層と、ソフトマックス層とを備える。第２識別部２５２は、ＧＡＰ層およびソフトマックス層を用いて、第２の特徴量を入力することによってクラスを出力するニューラルネットワークを構成する。第２識別部２５２での識別結果は、学習データ全体を反映している。尚、ソフトマックス層からの出力データは、クラス識別尤度と呼ばれてもよい。

以上、第１の実施形態に係る認識装置１００に対応するネットワークモデルの構成について説明した。次に、このネットワークモデルを用いた具体例について説明する。第１の具体例では二次元の特徴要素を単位として算出される特徴量重要度を用いることについて説明し、第２の具体例では三次元の特徴要素を単位として算出される特徴量重要度を用いることについて説明する。

図４は、図３のネットワークモデルを用いた第１の具体例を説明する図である。図４では、特徴量変換部２２０、重要特徴量生成部２３０、および特徴量統合部２４０に関するネットワークモデル（特徴量変換用ＣＮＮ２２１、調整用ＣＮＮ２３１、第１の乗算部２３２、第２の乗算部２３３、および加算部２４１）と、中間生成データ（第１の特徴量、第２の特徴量、汎用特徴量、特徴量重要度、重要特徴量、および統合特徴量）とが示されている。また、図４では、センサデータについて、センサモダリティに関する融合が行われた特徴量を扱うものとする。

特徴量変換部２２０は、図示していない特徴量生成部２１０から第１の特徴量ＣＮＮ＿ｔを受け取る。第１の特徴量ＣＮＮ＿ｔは、センサデータについて、センサモダリティに関する融合が行われている。よって、第１の特徴量ＣＮＮ＿ｔの特徴要素（ｅｌｅｍｅｎｔｓ）は、時間、センサモダリティ、および周波数特徴である。

特徴量変換用ＣＮＮ２２１は、第１の特徴量ＣＮＮ＿ｔが入力されると、識別対象のクラス数と同数に設定したフィルタ数の第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）を出力する。

重要特徴量生成部２３０は、図示していない特徴量生成部２１０から第１の特徴量ＣＮＮ＿ｔを受け取り、特徴量変換部２２０から第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）を受け取る。

調整用ＣＮＮ２３１は、第１の特徴量ＣＮＮ＿ｔが入力されると、汎用特徴量Ｂ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）を出力する。このとき、汎用特徴量Ｂ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）のフィルタ数は、第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）のフィルタ数と等しくなるように調整される。

第１の乗算部２３２は、汎用特徴量Ｂ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）と第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）とを乗算することによって特徴量重要度Ｗ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｆｉｌｔｅｒ_ＣＡＭ）を生成する。具体的には、特徴量重要度Ｗ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｆｉｌｔｅｒ_ＣＡＭ）は、以下の式（１）で表される。

ここで、Ｓｏｆｔｍａｘ（）は、ソフトマックス関数を示し、ｔｒａｎｓｐｏｓｅ（）は、転置を示す。上記の式（１）によれば、第１の乗算部２３２は、汎用特徴量Ｂ＿ｔと第２の特徴量Ａ＿ｔの転置行列との行列積に対して、フィルタ単位でソフトマックス関数を適用することによりフィルタ単位の特徴量重要度Ｗ＿ｔを生成する。尚、図４では、特徴量重要度Ｗ＿ｔが時間単位で生成されることから、特徴量重要度Ｗ＿ｔは、二次元の特徴要素（センサモダリティおよび周波数特徴）を含む。

第２の乗算部２３３は、汎用特徴量Ｂ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）と特徴量重要度Ｗ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｆｉｌｔｅｒ_ＣＡＭ）とを乗算することによって重要特徴量Ａｔｔ＿ｔ（ｅｌｅｍｅｎｔｓ，ｆｉｌｔｅｒ_ＣＡＭ）を生成する。具体的には、重要特徴量Ａｔｔ＿ｔ（ｅｌｅｍｅｎｔｓ，ｆｉｌｔｅｒ_ＣＡＭ）は、以下の式（２）で表される。

上記の式（２）によれば、第２の乗算部２３３は、汎用特徴量Ｂ＿ｔの転置行列と特徴量重要度Ｗ＿ｔとの行列積を求めることにより重要特徴量Ａｔｔ＿ｔを生成する。

特徴量統合部２４０は、特徴量変換部２２０から第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）を受け取り、重要特徴量生成部２３０から重要特徴量Ａｔｔ＿ｔ（ｅｌｅｍｅｎｔｓ，ｆｉｌｔｅｒ_ＣＡＭ）を受け取る。

加算部２４１は、第２の特徴量Ａ＿ｔ（ｆｉｌｔｅｒ_ＣＡＭ，ｅｌｅｍｅｎｔｓ）と重要特徴量Ａｔｔ＿ｔ（ｅｌｅｍｅｎｔｓ，ｆｉｌｔｅｒ_ＣＡＭ）とを加算することにより統合特徴量Ｃ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）を生成する。具体的には、統合特徴量Ｃ＿ｔ（ｆｉｌｔｅｒ_ＣＮＮ，ｅｌｅｍｅｎｔｓ）は、以下の式（３）で表される。

上記の式（３）によれば、加算部２４１は、第２の特徴量Ａ＿ｔと重要特徴量Ａｔｔ＿ｔの転置行列との和を求めることにより統合特徴量Ｃ＿ｔを生成する。

図５は、図３のネットワークモデルを用いた第２の具体例を説明する図である。図５では、図４と同様に、特徴量変換部２２０、重要特徴量生成部２３０、および特徴量統合部２４０に関するネットワークモデルと中間生成データ（第１の特徴量、第２の特徴量、汎用特徴量、特徴量重要度、重要特徴量、および統合特徴量）とが示されている。

図５の第２の具体例では、特徴量重要度を算出する際に、特徴要素に時間を含む点において、図４の第１の具体例と異なる。即ち、図５では、特徴量重要度Ｗ＿ｔは、三次元の特徴要素（時間、センサモダリティ、および周波数特徴）を含む。特徴要素に時間を含む場合、図４の説明において各時間単位で特徴要素の統合などを行った部分において、時間も特徴要素に含めてフィルタ単位に一括して特徴量重要度および統合特徴量を生成する。

なお、特徴量重要度を算出する際の特徴要素は、周波数特徴のみが含まれてもよい。特徴要素に周波数特徴のみを含む場合、時間に関する特徴量と、センサモダリティに関する特徴量とを切り分けて、それぞれ個別に特徴量重要度および統合特徴量を生成する。

以上の説明では、センサデータについて、センサモダリティに関する融合が行われた特徴量を扱うものとしたがこれに限らない。例えば、センサデータについて、センサ装着部位に関する融合が行われた特徴量を扱ってもよい。センサ装着部位に関する融合が行われた場合、例えば、特徴要素には、センサ装着部位および周波数特徴が含まれる。更に、センサデータについて、センサモダリティに関する融合およびセンサ装着部位に関する融合の両方の融合が行われた場合、例えば、特徴要素には、センサモダリティ、センサ装着部位、および周波数特徴が含まれる。

以上、第１の実施形態に係る認識装置１００に対応するネットワークモデルを用いた具体例について説明した。次に、認識装置１００の動作について、図６のフローチャートを用いて説明する。

図６は、第１の実施形態に係る認識装置１００の動作例を示すフローチャートである。図６のフローチャートは、例えば、センサデータが入力されてからクラス識別結果を出力するまでの一連の流れを示している。

（ステップＳＴ１１０）
認識装置１００は、センサ１１０からセンサデータを取得する。

（ステップＳＴ１２０）
センサデータを取得した後、特徴量生成部２１０は、センサデータに基づいて第１の特徴量を生成する。

（ステップＳＴ１３０）
第１の特徴量を生成した後、特徴量変換部２２０は、第１の特徴量を第２の特徴量に変換する。

（ステップＳＴ１４０）
第１の特徴量を第２の特徴量に変換した後、重要特徴量生成部２３０は、第１の特徴量および第２の特徴量に基づいて重要度を算出する。

（ステップＳＴ１５０）
重要度を算出した後、重要特徴量生成部２３０は、第１の特徴量および重要度に基づいて重要特徴量を生成する。

（ステップＳＴ１６０）
重要特徴量を生成した後、特徴量統合部２４０は、重要特徴量および第２の特徴量に基づいて統合特徴量を生成する。

（ステップＳＴ１７０）
統合特徴量を生成した後、識別部２５０は、統合特徴量に基づいてクラスを識別する。

以上説明したように、第１の実施形態に係る認識装置は、センサデータに基づいて、センサデータの特徴を有する第１の特徴量を生成し、第１の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換し、第１の特徴量および第２の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成し、第２の特徴量および重要特徴量に基づいて、第１の特徴量および第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成し、統合特徴量に基づいてクラスを識別する。

従って、第１の実施形態に係る認識装置は、センサデータの特徴およびクラス識別の特徴の両方を考慮することにより、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる。

例えば、第１の実施形態に係る認識装置は、モダリティの異なる複数のセンサからのセンサデータを組み合わせてもよい。具体的には、センサデータは、同じ画像であっても可視光画像および赤外線画像のようにセンシングする周波数帯域が異なるものを組み合わせてもよい。この組み合わせの場合、例えば、人体を検出する際には、認識装置は、赤外線画像を強調して可視光画像を抑制するような特徴量の統合が行われる。

また、異なるセンサデータの組み合わせは、例えば、慣性センサから出力された時系列のセンサ信号と、マイクを用いて取得した音響信号とでもよい。例えば、認識装置は、作業者の頭部あるいは腕部に装着されたマイク、あるいは工作機器に設置されたマイクから現場の音響信号を取得すると同時に、作業者の腕や手首に装着した慣性センサを用いて作業者の動作に伴うセンサ信号を取得する。これにより、認識装置は、作業時の動作だけではなく、現場における音響情報を同時にセンサデータとして入力することが可能となり、作業特有の音響（例えば、工作機械から発せられる音響信号など）に着目した特徴量の統合を行うことが可能となり、作業動作の認識精度を高める効果が期待できる。

さらに、異なるセンサデータの組み合わせは、眼電位センサや筋電センサなどの生体センサから出力された信号と慣性センサから出力された信号との組み合わせでもよい。これにより、眼の動きや瞬き、筋肉の収縮活動を取得することが可能となり、慣性センサでは得られない特有のセンサ情報を手掛かりに認識精度を高めることができる。

（第２の実施形態）
第１の実施形態では、ネットワークモデルを用いて、センサデータからクラスを識別する認識装置について説明した。他方、第２の実施形態では、クラス識別の条件を変更する場合におけるネットワークモデルの切り替えについて説明する。

図７は、第２の実施形態に係る認識装置７００の構成例を示すブロック図である。図７の認識装置７００は、特徴量生成部２１０と、特徴量変換部２２０と、重要特徴量生成部２３０と、特徴量統合部２４０と、識別部２５０と、記憶部７１０と、モデル切替部７２０とを備える。尚、以降では、特徴量生成部２１０と、特徴量変換部２２０と、重要特徴量生成部２３０と、特徴量統合部２４０と、識別部２５０とを纏めて識別モデル２００と称する。

記憶部７１０は、識別モデル２００で用いられるネットワークモデルに関する情報を記憶している。例えば、記憶部７１０は、作業ドメインとネットワークモデルとを対応付けて記憶している。また例えば、記憶部７１０は、センサモダリティまたはセンサ装着部位とネットワークモデルとを対応付けて記憶している。また例えば、記憶部７１０は、作業者とネットワークモデルのパラメータとを対応付けて記憶している。

モデル切替部７２０は、識別モデル２００のネットワークモデルに関する情報を含むモデル切替データに基づいて、識別モデルのネットワークモデルを切り替える。ネットワークモデルに関する情報には、例えば、作業ドメインの情報、入力されるセンサデータのセンサモダリティまたはセンサ装着部位の情報、および作業者の情報が含まれる。

なお、ネットワークモデルの切り替えは、ネットワークモデル自体の切り替えと、ネットワークモデルのパラメータの切り替えの両方を含む。よって、モデル切替部７２０は、ネットワークモデルおよびネットワークモデルのパラメータの少なくとも一方を切り替える。

図８は、第２の実施形態に係る認識装置７００の動作例を示すフローチャートである。図８のフローチャートは、モデル切替処理およびクラス識別処理を含む。尚、クラス識別処理は、図６のフローチャートの一連の処理と同様であるため説明を省略する。

（ステップＳＴ２１０）
認識装置７００は、モデル切替データを取得する。

（ステップＳＴ２２０）
モデル切替データを取得した後、モデル切替部７２０は、モデル切替データに基づいてネットワークモデルを切り替える。具体的には、モデル切替部７２０は、モデル切替データに含まれるネットワークモデルに関する情報に対応付けられたネットワークモデルを記憶部７１０から読み出し、識別モデル２００のネットワークモデルを切り替える。

（ステップＳＴ２３０）
ネットワークモデルを切り替えた後、認識装置７００は、切り替えられたネットワークモデルを利用したクラス識別処理を実行する。

以上説明したように、第２の実施形態に係る認識装置は、ネットワークモデルおよびネットワークモデルのパラメータの少なくとも一方を切り替えることができる。

従って、第２の実施形態に係る認識装置は、センサデータに応じたネットワークモデル、或いはネットワークモデルのパラメータを切り替えることにより、様々な状況に応じて適切な認識処理を行うことができる。

例えば、第２実施形態に係る認識装置によれば、工場などの作業ドメインや、物流現場の作業ドメインなど、異なる作業ドメインへの適用時にニューラルネットワーク識別モデルを切り替えることができる。また、本認識装置は、同じ作業ドメインであっても、センサの構成に変更があった場合（例えば、センサモダリティやセンサ装着位置が異なったものであったり、あるいは新たにセンサを後から追加したりした場合）であっても、ニューラルネットワーク識別モデルを切り替えることで、同じシステムの構成で柔軟に認識処理を行うことができる。

（第３の実施形態）
第１の実施形態および第２の実施形態では、予め学習されたネットワークモデルを用いて、センサデータからクラスを識別する認識装置について説明した。他方、第３の実施形態では、クラス識別の条件、或いは認識対象となるセンサデータを変更する場合におけるネットワークモデルの学習について説明する。

図９は、第３の実施形態に係る認識装置９００の構成例を示すブロック図である。図９の認識装置９００は、識別モデル２００と、記憶部７１０と、モデル切替部７２０と、学習部９１０とを備える。

学習部９１０は、センサデータと正解となるクラスデータ（正解データ）とを対応付けた学習データセットを用いてネットワークモデルの学習を行う。学習部９１０は、ネットワークモデルの学習結果を、識別モデル２００のモデルパラメータに反映させる。また、学習部９１０は、学習結果を記憶部７１０へと記憶させてもよい。

図９の記憶部７１０は、学習部９１０で用いられる学習データセットを更に記憶している。また、記憶部７１０は、学習部９１０によって学習が行われた学習結果を記憶してもよい。

図１０は、第３の実施形態に係る認識装置９００の動作例を示すフローチャートである。図１０のフローチャートは、モデル切替処理、クラス識別処理、および学習処理を含む。尚、モデル切替処理およびクラス識別処理は、図８のフローチャートの一連の処理と同様であるため詳細な説明を省略する。

（ステップＳＴ３１０）
認識装置７００は、モデル切替データを取得する。

（ステップＳＴ３２０）
モデル切替データを取得した後、モデル切替部７２０は、モデル切替データに基づいてネットワークモデルを切り替える。尚、以降では、切り替えられたネットワークモデルについて学習することとする。

（ステップＳＴ３３０）
ネットワークモデルを切り替えた後、認識装置９００は、クラス識別処理を実行する。ネットワークモデルの学習を学習する場合、認識装置９００は、学習データセットに含まれるセンサデータを用いてクラス識別処理を実行する。

（ステップＳＴ３４０）
クラス識別処理を実行した後、学習部９１０は、識別結果に基づいてネットワークモデルを学習する。具体的には、学習部９１０は、識別結果と正解データとの誤差がゼロになるようにネットワークモデルのモデルパラメータを更新する。より具体的には、学習部９１０は、識別結果と正解データとのクロスエントロピー誤差を算出し、誤差逆伝播法に基づいてモデルパラメータを更新する。

ここで、図３のように、識別部２５０が二つのネットワーク（第１識別部２５１および第２識別部２５２）で構成されている場合、二つのネットワークそれぞれの出力はクラス識別尤度に対応した分布（クラス識別尤度分布）になっている。そこで、学習部９１０は、二つのネットワークのクラス識別尤度分布の分布間距離を上記クロスエントロピー誤差に加えてネットワークの損失関数として扱ってもよい。

２つのクラス識別尤度分布間距離の算出には、例えばカルバック・ライブラー情報量を用いることができるが、これに限定するものではない。第２の特徴量でクラス識別するネットワークの出力分布をＰ、統合特徴量でクラス識別するネットワークの出力分布をＱ、対象クラス変数をiとすると、両分布におけるカルバック・ライブラー情報量Ｄ_ＫＬは、以下の式（４）のように求められる。

よって、学習部９１０は、第２の特徴量に基づいて出力されたクラス識別尤度の分布と、統合特徴量に基づいて出力されたクラス識別尤度の分布とが等しくなるようにニューラルネットワークモデルを学習してもよい。この構成を用いれば、過去の識別結果を記憶部７１０に保存しておくことによって、識別部２５０は、過去一定区間の識別結果を用いて現在の識別結果を補正することもできる。例えば、識別部２５０は、過去一定区間に渡って記録しておいた識別結果のうち、最も頻度の高い識別結果を出力してもよい。こうすることで、何らかのセンサ値の異常などの影響で一時的な認識結果が変化する状態を避けることができ、センサ異常などのノイズ要因に対して頑健な認識システムを構築することができる。

以上説明したように、第３の実施形態に係る認識装置は、ニューラルネットワークモデルを学習することができる。

従って、第３の実施形態に係る認識装置は、ニューラルネットワークモデルを学習することにより、新たな環境でも適切な認識処理を行うことができる。

例えば、第３実施形態に係る認識装置によれば、同じ作業ドメインであっても、対象となる作業者の追加や変更があった場合に、少量のセンサデータと正解クラスを与えることで、ネットワークモデルの学習と更新を行うことができる。これにより、作業者へ適応した認識システムの展開が可能となり、より柔軟でノイズに対しても頑健な認識システムとして展開することができる。

（ハードウェア構成）
図１１は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。コンピュータ１１００は、ハードウェアとして、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１０と、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１２０と、プログラムメモリ１１３０と、補助記憶装置１１４０と、入出力インタフェース１１５０とを備える。ＣＰＵ１１１０は、バス１１６０を介して、ＲＡＭ１１２０、プログラムメモリ１１３０、補助記憶装置１１４０、および入出力インタフェース１１５０と通信する。

ＣＰＵ１１１０は、汎用プロセッサの一例である。ＲＡＭ１１２０は、ワーキングメモリとしてＣＰＵ１１１０に使用される。ＲＡＭ１１２０は、ＳＤＲＡＭ（ＳｙｎｃｈｒｏｎｏｕｓＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリを含む。プログラムメモリ１１３０は、パラメータ更新処理プログラムなどを含む種々のプログラムを記憶する。プログラムメモリ１１３０として、例えば、ＲＯＭ（Ｒｅａｄ－ＯｎｌｙＭｅｍｏｒｙ）、補助記憶装置１１４０の一部、またはその組み合わせが使用される。補助記憶装置１１４０は、データを非一時的に記憶する。補助記憶装置１１４０は、ＨＤＤまたはＳＳＤなどの不揮発性メモリを含む。

入出力インタフェース１１５０は、他のデバイスと接続するためのインタフェースである。入出力インタフェース１１５０は、例えば、集音デバイスおよび出力装置との接続に使用される。

プログラムメモリ１１３０に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム（コンピュータ実行可能命令）は、ＣＰＵ１１１０により実行されると、ＣＰＵ１１１０に所定の処理を実行させる。例えば、クラス識別処理プログラムなどは、ＣＰＵ１１１０により実行されると、ＣＰＵ１１１０に図２、図７、および図９の各部に関して説明された一連の処理を実行させる。

プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ１１００に提供されてよい。この場合、例えば、コンピュータ１１００は、記憶媒体からデータを読み出すドライブ（図示せず）をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク（ＣＤ－ＲＯＭ、ＣＤ－Ｒ、ＤＶＤ－ＲＯＭ、ＤＶＤ－Ｒなど）、光磁気ディスク（ＭＯなど）、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ１１００が入出力インタフェース１１５０を使用してサーバからプログラムをダウンロードするようにしてもよい。

実施形態において説明される処理は、ＣＰＵ１１１０などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）などの専用ハードウェアプロセッサにより行われてもよい。処理回路（処理部）という語は、少なくとも一つの汎用ハードウェアプロセッサ、少なくとも一つの専用ハードウェアプロセッサ、または少なくとも一つの汎用ハードウェアプロセッサと少なくとも一つの専用ハードウェアプロセッサとの組み合わせを含む。図１１に示す例では、ＣＰＵ１１１０、ＲＡＭ１１２０、およびプログラムメモリ１１３０が処理回路に相当する。

よって、以上の各実施形態によれば、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１…認識システム、１００，７００，９００…認識装置、１１０－１，１１０－２，１１０－ｎ…センサ、１２０…ネットワーク、２００…識別モデル、２１０…特徴量生成部、２１１…特徴量抽出用ＣＮＮ、２１２…特徴量融合用ＣＮＮ、２２０…特徴量変換部、２２１…特徴量変換用ＣＮＮ、２３０…重要特徴量生成部、２３１…調整用ＣＮＮ、２３２…第１の乗算部、２３３…第２の乗算部、２４０…特徴量統合部、２４１…加算部、２５０…識別部、２５１…第１識別部、２５２…第２識別部、７１０…記憶部、７２０…モデル切替部、９１０…学習部、１１００…コンピュータ、１１３０…プログラムメモリ、１１４０…補助記憶装置、１１５０…入出力インタフェース、１１６０…バス、Ａ＿ｔ…第２の特徴量、Ａｔｔ＿ｔ…重要特徴量、Ｂ＿ｔ…汎用特徴量、Ｃ＿ｔ…統合特徴量、ＣＮＮ＿ｔ…第１の特徴量。

Claims

センサデータに基づいて、前記センサデータの特徴を有する第１の特徴量を生成する特徴量生成部と、
前記第１の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換する特徴量変換部と、
前記第１の特徴量および前記第２の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成する重要特徴量生成部と、
前記第２の特徴量および前記重要特徴量に基づいて、前記第１の特徴量および前記第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する特徴量統合部と、
前記統合特徴量に基づいて前記クラスを識別する識別部と
を具備する、認識装置。
前記特徴量生成部は、前記センサデータの種類に関して特徴量を融合させること、およびセンサの装着部位に関して特徴量を融合させることの少なくとも一方によって前記第１の特徴量を生成する、
請求項１に記載の認識装置。
前記特徴量変換部は、識別する前記クラスの数とフィルタの数とが同じになるように、前記第１の特徴量を前記第２の特徴量に変換する、
請求項１または請求項２に記載の認識装置。
前記特徴量変換部は、前記フィルタに割り当てられた前記クラスを活性化するように、前記第１の特徴量を前記第２の特徴量に変換する、
請求項３に記載の認識装置。
前記重要特徴量生成部は、
前記第１の特徴量に基づいて、前記第２の特徴量と同じフィルタ数を有する汎用特徴量を生成し、
前記汎用特徴量と前記第２の特徴量とを乗算することによって特徴量重要度を算出し、
前記汎用特徴量と前記特徴量重要度とを乗算することによって前記重要特徴量を生成する、
請求項１から請求項４までのいずれか一項に記載の認識装置。
前記重要特徴量生成部は、少なくともセンサデータの周波数特徴を含み、時間、前記センサデータの種類、およびセンサの装着部位のうちの少なくとも一つをさらに含む特徴要素を単位として、前記特徴量重要度を生成する、
請求項５に記載の認識装置。
前記特徴量統合部は、前記第２の特徴量と前記重要特徴量とを加算、あるいは乗算することによって前記統合特徴量を生成する、
請求項１から請求項６までのいずれか一項に記載の認識装置。
前記識別部は、過去の識別結果を利用して前記クラスを識別する請求項１から請求項７までのいずれか一項に記載の認識装置。
前記識別部は、センサ装着者の行動を識別する請求項１から請求項８までのいずれか一項に記載の認識装置。
前記識別部は、前記第２の特徴量に基づいて前記センサデータ全体のクラスを識別する、請求項１から請求項９までのいずれか一項に記載の認識装置。
前記特徴量生成部、前記特徴量変換部、前記重要特徴量生成部、前記特徴量統合部、および前記識別部を構成するニューラルネットワークモデルに関する情報を記憶する記憶部
を更に具備する、
請求項１から請求項１０までのいずれか一項に記載の認識装置。
前記ニューラルネットワークモデルおよび前記ニューラルネットワークモデルのパラメータの少なくとも一方を切り替える切替部
を更に具備する、請求項１１に記載の認識装置。
前記ニューラルネットワークモデルを学習する学習部
を更に具備する、
請求項１１または請求項１２に記載の認識装置。
前記学習部は、前記第２の特徴量に基づいて出力されたクラス識別尤度の分布と、前記統合特徴量に基づいて出力されたクラス識別尤度の分布とが等しくなるように前記ニューラルネットワークモデルを学習する請求項１３に記載の認識装置。
前記学習部は、学習結果を用いて前記ニューラルネットワークモデルを更新する、
請求項１３または請求項１４に記載の認識装置。
前記学習部は、前記学習結果を前記記憶部へ記憶させる、
請求項１５に記載の認識装置。
センサデータに基づいて、前記センサデータの特徴を有する第１の特徴量を生成することと、
前記第１の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換することと、
前記第１の特徴量および前記第２の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成することと、
前記第２の特徴量および前記重要特徴量に基づいて、前記第１の特徴量および前記第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成することと、
前記統合特徴量に基づいて前記クラスを識別することと
を具備する、認識方法。
コンピュータを、
センサデータに基づいて、前記センサデータの特徴を有する第１の特徴量を生成する手段と、
前記第１の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第２の特徴量に変換する手段と、
前記第１の特徴量および前記第２の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成する手段と、
前記第２の特徴量および前記重要特徴量に基づいて、前記第１の特徴量および前記第２の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する手段と、
前記統合特徴量に基づいて前記クラスを識別する手段
として機能させるためのプログラム。