JP7631246B2 - 認識装置、認識方法、およびプログラム - Google Patents

認識装置、認識方法、およびプログラム Download PDF

Info

Publication number
JP7631246B2
JP7631246B2 JP2022009531A JP2022009531A JP7631246B2 JP 7631246 B2 JP7631246 B2 JP 7631246B2 JP 2022009531 A JP2022009531 A JP 2022009531A JP 2022009531 A JP2022009531 A JP 2022009531A JP 7631246 B2 JP7631246 B2 JP 7631246B2
Authority
JP
Japan
Prior art keywords
feature
unit
recognition device
class
sensor data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2022009531A
Other languages
English (en)
Other versions
JP2023108413A (ja
Inventor
康晋 山内
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2022009531A priority Critical patent/JP7631246B2/ja
Priority to US17/823,531 priority patent/US12460954B2/en
Publication of JP2023108413A publication Critical patent/JP2023108413A/ja
Application granted granted Critical
Publication of JP7631246B2 publication Critical patent/JP7631246B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01DMEASURING NOT SPECIALLY ADAPTED FOR A SPECIFIC VARIABLE; ARRANGEMENTS FOR MEASURING TWO OR MORE VARIABLES NOT COVERED IN A SINGLE OTHER SUBCLASS; TARIFF METERING APPARATUS; MEASURING OR TESTING NOT OTHERWISE PROVIDED FOR
    • G01D21/00Measuring or testing not otherwise provided for
    • G01D21/02Measuring two or more variables by means not covered by a single other subclass
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
    • A61B5/1123Discriminating type of movement, e.g. walking or running
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • G06N3/0442Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/443Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/764Arrangements for image or video recognition or understanding using pattern recognition or machine learning using classification, e.g. of video objects
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/80Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level
    • G06V10/806Fusion, i.e. combining data from various sources at the sensor level, preprocessing level, feature extraction level or classification level of extracted features
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2503/00Evaluating a particular growth phase or type of persons or animals
    • A61B2503/20Workers
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0204Acoustic sensors
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B2562/00Details of sensors; Constructional details of sensor housings or probes; Accessories for sensors
    • A61B2562/02Details of sensors specially adapted for in-vivo measurements
    • A61B2562/0219Inertial sensors, e.g. accelerometers, gyroscopes, tilt switches
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
    • A61B5/1103Detecting muscular movement of the eye, e.g. eyelid movement
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
    • A61B5/1113Local tracking of patients, e.g. in a hospital or private home
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Measuring devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor or mobility of a limb
    • A61B5/1118Determining activity level
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/24Detecting, measuring or recording bioelectric or biomagnetic signals of the body or parts thereof
    • A61B5/316Modalities, i.e. specific diagnostic methods
    • A61B5/398Electrooculography [EOG], e.g. detecting nystagmus; Electroretinography [ERG]
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/68Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient
    • A61B5/6801Arrangements of detecting, measuring or recording means, e.g. sensors, in relation to patient specially adapted to be attached to or worn on the body surface
    • A61B5/6802Sensor mounted on worn items
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • A61B5/7264Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems
    • A61B5/7267Classification of physiological signals or data, e.g. using neural networks, statistical classifiers, expert systems or fuzzy systems involving training the classification device

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Animal Behavior & Ethology (AREA)
  • Surgery (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Pathology (AREA)
  • Physiology (AREA)
  • Psychiatry (AREA)
  • Signal Processing (AREA)
  • Fuzzy Systems (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Dentistry (AREA)
  • Image Analysis (AREA)

Description

本発明の実施形態は、認識装置、認識方法、およびプログラムに関する。
近年、プロセッサやセンサ性能の高度化、小型低消費電力化によって、低価格なウェアラブル機器が身近になり、日々の身体行動をロギング(ライフログ)するヘルスケアサービスが盛んに提案されている。また、その活用範囲を社会インフラ分野に拡げる動きも加速している。例えば、製造、物流、および点検などの作業現場において、作業者の身体行動をウェアラブル機器などのセンサにより取得し、ニューラルネットワークを用いてセンサデータから作業者の作業行動を認識する技術が知られている。
上記の技術として、例えば、センサデータから抽出した特徴量に対して、クラス識別貢献度に基づいて生成したアテンション情報により特徴量を加工することで識別を行う技術がある。しかし、この技術では、クラス識別貢献度は全てのセンサデータで共通したものを用いており、センサデータ毎に異なる特性を反映したものではない。
特開2020-190960号公報
本発明が解決しようとする課題は、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる認識装置、認識方法、およびプログラムを提供することである。
一実施形態に係る認識装置は、特徴量生成部と、特徴量変換部と、重要特徴量生成部と、特徴量統合部と、識別部とを備える。特徴量生成部は、センサデータに基づいて、センサデータの特徴を有する第1の特徴量を生成する。特徴量変換部は、第1の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換する。重要特徴量生成部は、第1の特徴量および第2の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。特徴量統合部は、第2の特徴量および重要特徴量に基づいて、第1の特徴量および第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する。識別部は、統合特徴量に基づいてクラスを識別する。
第1の実施形態に係る認識装置を含む認識システムの構成例を示すブロック図。 第1の実施形態に係る認識装置の構成例を示すブロック図。 第1の実施形態に係る認識装置に対応するネットワークモデルの構成例を示すブロック図。 図3のネットワークモデルを用いた第1の具体例を説明する図。 図3のネットワークモデルを用いた第2の具体例を説明する図。 第1の実施形態に係る認識装置の動作例を示すフローチャート。 第2の実施形態に係る認識装置の構成例を示すブロック図。 第2の実施形態に係る認識装置の動作例を示すフローチャート。 第3の実施形態に係る認識装置の構成例を示すブロック図。 第3の実施形態に係る認識装置の動作例を示すフローチャート。 一実施形態に係るコンピュータのハードウェア構成を例示するブロック図。
以下、図面を参照しながら、認識装置の実施形態について詳細に説明する。
(第1の実施形態)
図1は、第1の実施形態に係る認識装置100を含む認識システム1の構成例を示すブロック図である。図1の認識システム1は、認識装置100と、一つ以上のセンサとを備える。図1では、一つ以上のセンサとして、センサ110-1,110-2,…,110-nを例示する。認識装置100と、センサ110-1,110-2,…,110-nとは、ネットワーク120を介して接続されている。尚、ネットワーク120の通信方式は、有線方式でも無線方式でもよい。また、通信方式は、有線方式と無線方式とが組み合わされていてもよい。以下では、センサ110-1,110-2,…,110-nのそれぞれを区別しない場合、単にセンサ110と称する。
センサ110は、認識対象の情報などを示すセンサデータを取得し、当該センサデータを認識装置100へと送信する。センサデータは、例えば、加速度データ、角速度データ、地磁気データ、気圧データ、温湿度データ、体温データ、筋電位データ、および脈波データである。センサ110は、例えば、ウェアラブルセンサである。作業者がセンサ110を装着している場合、認識対象の情報は、例えば、センサ装着者の行動に関する情報(行動情報)などである。
なお、センサ110は、作業者に装着された撮影装置でもよいし、作業者を撮影する撮影装置でもよい。センサ110が撮影装置の場合、センサデータは、例えば、画像および三次元骨格データである。
ウェアラブルセンサを装着した人の行動を推定(認識)する場合に、対象となる動作および作業は、工場、フィールド、家庭、オフィス、およびフィットネスでそれぞれ異なり多岐に渡る。本明細書では、作業の種類(作業種)でくくられる作業環境を作業ドメインと呼ぶ。工場などの作業ドメインでは「台車移動」、「運搬」、「タッチパネル操作」、「筆記操作」、および「スイッチ操作」などが主要で共通した作業動作と想定することができる。一方で、倉庫などの物流現場では、荷物の「運搬」以外に「バーコード読込」、「ピッキング」、「梱包」、さらには「フォークリフト操作」といった作業が主要な作業種となる。異なる作業ドメイン間で学習モデルを再利用する際には、作業ドメインにより異なる作業種への対応が求められる。また、センサ構成が異なることによる影響も考慮しておく必要がある。例えば、認識精度を優先することを考えて、腕にセンサを装着する他に、足や体幹など複数の部位にセンサを装着することも考えられる。
図2は、第1の実施形態に係る認識装置100の構成例を示すブロック図である。図2の認識装置100は、センサ110からセンサデータを取得し、取得したセンサデータから、認識対象の情報(例えば、人の行動情報など)を認識する。認識装置100は、特徴量生成部210と、特徴量変換部220と、重要特徴量生成部230と、特徴量統合部240と、識別部250とを備える。
特徴量生成部210は、センサ110から取得したセンサデータに基づいて、センサデータの特徴を有する第1の特徴量を生成する。特徴量生成部210は、第1の特徴量を特徴量変換部220および重要特徴量生成部230へと出力する。
特徴量変換部220は、特徴量生成部210から第1の特徴量を受け取る。特徴量変換部220は、第1の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換する。具体的には、特徴量変換部220は、第1の特徴量に対して、クラス識別において注目すべき特徴量を活性化することによって、第2の特徴量を生成する。特徴量変換部220は、第2の特徴量を重要特徴量生成部230、特徴量統合部240、および識別部250へと出力する。尚、上記のクラスについては後述される。
重要特徴量生成部230は、特徴量生成部210から第1の特徴量を受け取り、特徴量変換部220から第2の特徴量を受け取る。重要特徴量生成部230は、第1の特徴量および第2の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。具体的には、重要特徴量生成部230は、第1の特徴量および第2の特徴量の相互相関値を算出し、クラス識別において重要となる重要特徴量を生成する。また、この重要特徴量は、センサデータの信号特徴とも高い相関性がある。
特徴量統合部240は、特徴量変換部220から第2の特徴量を受け取り、重要特徴量生成部230から重要特徴量を受け取る。特徴量統合部240は、第2の特徴量および重要特徴量に基づいて、第1の特徴量および第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する。具体的には、特徴量統合部240は、重要特徴量および第2の特徴量を加算、或いは乗算して統合することによって統合特徴量を生成する。特徴量統合部240は、統合特徴量を識別部250へと出力する。
識別部250は、特徴量統合部240から統合特徴量を受け取る。識別部250は、統合特徴量に基づいてクラスを識別する。具体的には、識別部250は、統合特徴量を入力することによってクラスを出力するニューラルネットワークを用いることによって、統合特徴量に対応するセンサデータのクラスを識別する。
更に、識別部250は、第2の特徴量に基づいてクラスを識別してもよい。具体的には、識別部250は、特徴量変換部220から第2の特徴量を受け取る。識別部250は、第2の特徴量を入力することによってクラスを出力するニューラルネットワークを用いることによって、第2の特徴量に対応するセンサデータのクラスを識別する。
識別部250において識別されるクラスは、任意に定義されてよい。クラスは、例えば、行動、作業種、および作業動作である。具体的には、工場などの作業ドメインにおいて識別されるクラスは、例えば、「台車移動」、「運搬」、「タッチパネル操作」、「筆記操作」、および「スイッチ操作」などである。よって、識別部250は、センサ装着者の行動を識別することができる。
識別部250によるクラスの識別結果は、図1および図2に図示していないディスプレイなどに表示させてもよいし、記憶装置に記憶させてもよいし、無線接続または有線接続された他の装置へ送信してもよい。
以上、第1の実施形態に係る認識装置100および認識システム1の構成について説明した。次に、第1の実施形態に係る認識装置100に対応するネットワークモデルについて説明する。
図3は、第1の実施形態に係る認識装置100に対応するネットワークモデルの構成例を示すブロック図である。図3のネットワークモデルは、図2の認識装置100の各部を具体化した一例である。以降では、図2の認識装置100の各部について具体的に説明する。
初めに、認識装置100に入力されるセンサデータについて説明する。入力されるセンサデータは、センサ110のサンプリング間隔で取得された時系列データであって、特定のインターバル区間(所定のサンプリング数で規定される区間)に含まれる時系列データを所定のインターバル数でまとめたデータである。よって、認識装置100におけるセンサデータの処理単位は、所定のインターバル数で規定される時間的に連続したセンサデータである。
また、上記のインターバル区間に含まれるセンサデータは、時系列センサ値であってもよいし、時系列センサ値をFFT(Fast Fourier Transform)などのアルゴリズムを用いて周波数領域に変換した周波数特徴量(周波数毎の信号強度値)であってもよい。例えば、複数のセンサは、それぞれ異なるサンプリング間隔で時系列データを取得している場合がある。この場合には、異なるサンプリング間隔のセンサデータを統一的に扱う必要があるため、以降の説明では、センサデータは、FFTなどを用いた周波数変換を施した周波数特徴量であるものとする。
特徴量生成部210は、一つ以上のニューラルネットワーク(NN:Neural Network)を含む。このNNは、例えば、CNN(Convolutional Neural Network)が用いられる。具体的には、特徴量生成部210は、特徴量抽出用CNN211と特徴量融合用CNN212とを備える。
特徴量抽出用CNN211は、特徴量を抽出するためのCNNである。特徴量抽出用CNN211は、例えば、センサデータの数に応じたインプット層を有する。特徴量抽出用CNN211は、センサデータ毎に特徴量を出力する。以降では、センサ装着部位がそれぞれ異なる三つのセンサそれぞれについて、三種類のモダリティ(例えば、加速度計、角速度計、および地磁気計)からそれぞれデータを取得するものとする。
特徴量融合用CNN212は、特徴量を融合するためのCNNである。特徴量融合用CNN212は、特徴量抽出用CNN211から出力された複数の特徴量を融合する。特徴量の融合には、例えば、センサモダリティに関する融合およびセンサ装着部位に関する融合がある。センサモダリティに関する融合では、例えば、センサ装着部位は異なるがセンサモダリティが同じセンサデータを融合させる。この融合により、センサモダリティ特有のセンサの信号特徴を効率良く抽出することができる。また、センサ装着部位に関する融合では、例えば、センサモダリティは異なるがセンサ装着部位が同じセンサデータを融合させる。この融合により、センサ装着部位特有のセンサの信号特徴を効率良く抽出することができる。
なお、上記のセンサモダリティに関する融合およびセンサ装着部位に関する融合の両方の融合を行ってもよい。この融合により、センサモダリティおよびセンサ装着部位の双方が考慮された信号特徴を抽出することができる。
特徴量変換部220は、一つ以上のNNを含む。このNNは、例えば、CNNが用いられる。具体的には、特徴量変換部220は、特徴量変換用CNN221を備える。
特徴量変換用CNN221は、特徴量を変換するためのCNNである。特徴量変換用CNN221は、例えば、1×1サイズのカーネルを用いて、出力フィルタ数を識別対象となるクラスの数に設定したコンボリューション層を有する。ここで用いられるコンボリューション層は、当該フィルタに割り当てられたクラスの特徴を活性化するように構成される。特徴量変換用CNN221は、第1の特徴量を上記のコンボリューション層に通すことによって、第2の特徴量を生成する。よって、第2の特徴量は、クラス活性化特徴量(CAM:Class Activation Map)と呼ばれてもよい。
概括すると、特徴量変換部220は、フィルタに割り当てられたクラスを活性化するように、第1の特徴量を第2の特徴量に変換する。
重要特徴量生成部230は、一つ以上のNNを含む。このNNは、例えば、CNNが用いられる。具体的には、重要特徴量生成部230は、調整用CNN231と、第1の乗算部232と、第2の乗算部233とを備える。
調整用CNN231は、特徴量を調整するためのCNNである。調整用CNN231は、例えば、1×1サイズのカーネルを用いて、出力フィルタ数を識別対象となるクラスの数に設定したコンボリューション層を有する。ここで用いられるコンボリューション層は、センサデータの特徴を活性化するように構成される。また、調整用CNN231から出力されるフィルタの数は、特徴量変換用CNN221から出力されるフィルタの数と同じである。調整用CNN231は、第1の特徴量を上記のコンボリューション層に通すことによって、汎用特徴量を生成する。よって、汎用特徴量は、第2の特徴量と同じフィルタ数を有する。
第1の乗算部232は、汎用特徴量と第2の特徴量とを乗算することによって特徴量重要度を生成する。具体的には、汎用特徴量と第2の特徴量とが同じサイズの行列で表される場合、第1の乗算部232は、汎用特徴量と第2の特徴量の転置行列との間で行列積を求め、フィルタ単位でソフトマックス関数を適用することにより特徴量重要度を生成する。
第2の乗算部233は、汎用特徴量と特徴量重要度とを乗算することによって重要特徴量を生成する。具体的には、汎用特徴量と特徴量重要度とが同じサイズの行列で表される場合、第2の乗算部233は、汎用特徴量の転置行列と特徴量重要度との間で行列積を求めることにより重要特徴量を生成する。
概括すると、重要特徴量生成部230は、第1の特徴量および第2の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。
特徴量統合部240は、加算部241を備える。加算部241は、第2の特徴量と重要特徴量とを加算することによって統合特徴量を生成する。
識別部250は、識別する特徴量の種類毎に識別部を有する。具体的には、識別部250は、第1識別部251と第2識別部252とを備える。
第1識別部251は、統合特徴量に基づいて認識対象のクラスを識別する。具体的には、第1識別部251は、LSTM(Long Short Term Memory)およびGRU(Gated Recurrent Unit)などのRNN(Recurrent Neural Network)と、ソフトマックス関数を適用するソフトマックス層とを備える。第1識別部251は、RNNおよびソフトマックス層を用いて、統合特徴量を入力することによってクラスを出力するニューラルネットワークを構成する。第1識別部251での識別結果は、時間単位の学習データを反映している。尚、ソフトマックス層からの出力データは、クラス識別尤度と呼ばれてもよい。
第2識別部252は、第2の特徴量に基づいて認識対象のクラスを識別する。具体的には、第2識別部252は、GAP(Global Average Pooling)層と、ソフトマックス層とを備える。第2識別部252は、GAP層およびソフトマックス層を用いて、第2の特徴量を入力することによってクラスを出力するニューラルネットワークを構成する。第2識別部252での識別結果は、学習データ全体を反映している。尚、ソフトマックス層からの出力データは、クラス識別尤度と呼ばれてもよい。
以上、第1の実施形態に係る認識装置100に対応するネットワークモデルの構成について説明した。次に、このネットワークモデルを用いた具体例について説明する。第1の具体例では二次元の特徴要素を単位として算出される特徴量重要度を用いることについて説明し、第2の具体例では三次元の特徴要素を単位として算出される特徴量重要度を用いることについて説明する。
図4は、図3のネットワークモデルを用いた第1の具体例を説明する図である。図4では、特徴量変換部220、重要特徴量生成部230、および特徴量統合部240に関するネットワークモデル(特徴量変換用CNN221、調整用CNN231、第1の乗算部232、第2の乗算部233、および加算部241)と、中間生成データ(第1の特徴量、第2の特徴量、汎用特徴量、特徴量重要度、重要特徴量、および統合特徴量)とが示されている。また、図4では、センサデータについて、センサモダリティに関する融合が行われた特徴量を扱うものとする。
特徴量変換部220は、図示していない特徴量生成部210から第1の特徴量CNN_tを受け取る。第1の特徴量CNN_tは、センサデータについて、センサモダリティに関する融合が行われている。よって、第1の特徴量CNN_tの特徴要素(elements)は、時間、センサモダリティ、および周波数特徴である。
特徴量変換用CNN221は、第1の特徴量CNN_tが入力されると、識別対象のクラス数と同数に設定したフィルタ数の第2の特徴量A_t(filterCAM,elements)を出力する。
重要特徴量生成部230は、図示していない特徴量生成部210から第1の特徴量CNN_tを受け取り、特徴量変換部220から第2の特徴量A_t(filterCAM,elements)を受け取る。
調整用CNN231は、第1の特徴量CNN_tが入力されると、汎用特徴量B_t(filterCNN,elements)を出力する。このとき、汎用特徴量B_t(filterCNN,elements)のフィルタ数は、第2の特徴量A_t(filterCAM,elements)のフィルタ数と等しくなるように調整される。
第1の乗算部232は、汎用特徴量B_t(filterCNN,elements)と第2の特徴量A_t(filterCAM,elements)とを乗算することによって特徴量重要度W_t(filterCNN,filterCAM)を生成する。具体的には、特徴量重要度W_t(filterCNN,filterCAM)は、以下の式(1)で表される。
ここで、Softmax()は、ソフトマックス関数を示し、transpose()は、転置を示す。上記の式(1)によれば、第1の乗算部232は、汎用特徴量B_tと第2の特徴量A_tの転置行列との行列積に対して、フィルタ単位でソフトマックス関数を適用することによりフィルタ単位の特徴量重要度W_tを生成する。尚、図4では、特徴量重要度W_tが時間単位で生成されることから、特徴量重要度W_tは、二次元の特徴要素(センサモダリティおよび周波数特徴)を含む。
第2の乗算部233は、汎用特徴量B_t(filterCNN,elements)と特徴量重要度W_t(filterCNN,filterCAM)とを乗算することによって重要特徴量Att_t(elements,filterCAM)を生成する。具体的には、重要特徴量Att_t(elements,filterCAM)は、以下の式(2)で表される。
上記の式(2)によれば、第2の乗算部233は、汎用特徴量B_tの転置行列と特徴量重要度W_tとの行列積を求めることにより重要特徴量Att_tを生成する。
概括すると、重要特徴量生成部230は、第1の特徴量および第2の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成する。
特徴量統合部240は、特徴量変換部220から第2の特徴量A_t(filterCAM,elements)を受け取り、重要特徴量生成部230から重要特徴量Att_t(elements,filterCAM)を受け取る。
加算部241は、第2の特徴量A_t(filterCAM,elements)と重要特徴量Att_t(elements,filterCAM)とを加算することにより統合特徴量C_t(filterCNN,elements)を生成する。具体的には、統合特徴量C_t(filterCNN,elements)は、以下の式(3)で表される。
上記の式(3)によれば、加算部241は、第2の特徴量A_tと重要特徴量Att_tの転置行列との和を求めることにより統合特徴量C_tを生成する。
図5は、図3のネットワークモデルを用いた第2の具体例を説明する図である。図5では、図4と同様に、特徴量変換部220、重要特徴量生成部230、および特徴量統合部240に関するネットワークモデルと中間生成データ(第1の特徴量、第2の特徴量、汎用特徴量、特徴量重要度、重要特徴量、および統合特徴量)とが示されている。
図5の第2の具体例では、特徴量重要度を算出する際に、特徴要素に時間を含む点において、図4の第1の具体例と異なる。即ち、図5では、特徴量重要度W_tは、三次元の特徴要素(時間、センサモダリティ、および周波数特徴)を含む。特徴要素に時間を含む場合、図4の説明において各時間単位で特徴要素の統合などを行った部分において、時間も特徴要素に含めてフィルタ単位に一括して特徴量重要度および統合特徴量を生成する。
なお、特徴量重要度を算出する際の特徴要素は、周波数特徴のみが含まれてもよい。特徴要素に周波数特徴のみを含む場合、時間に関する特徴量と、センサモダリティに関する特徴量とを切り分けて、それぞれ個別に特徴量重要度および統合特徴量を生成する。
以上の説明では、センサデータについて、センサモダリティに関する融合が行われた特徴量を扱うものとしたがこれに限らない。例えば、センサデータについて、センサ装着部位に関する融合が行われた特徴量を扱ってもよい。センサ装着部位に関する融合が行われた場合、例えば、特徴要素には、センサ装着部位および周波数特徴が含まれる。更に、センサデータについて、センサモダリティに関する融合およびセンサ装着部位に関する融合の両方の融合が行われた場合、例えば、特徴要素には、センサモダリティ、センサ装着部位、および周波数特徴が含まれる。
以上、第1の実施形態に係る認識装置100に対応するネットワークモデルを用いた具体例について説明した。次に、認識装置100の動作について、図6のフローチャートを用いて説明する。
図6は、第1の実施形態に係る認識装置100の動作例を示すフローチャートである。図6のフローチャートは、例えば、センサデータが入力されてからクラス識別結果を出力するまでの一連の流れを示している。
(ステップST110)
認識装置100は、センサ110からセンサデータを取得する。
(ステップST120)
センサデータを取得した後、特徴量生成部210は、センサデータに基づいて第1の特徴量を生成する。
(ステップST130)
第1の特徴量を生成した後、特徴量変換部220は、第1の特徴量を第2の特徴量に変換する。
(ステップST140)
第1の特徴量を第2の特徴量に変換した後、重要特徴量生成部230は、第1の特徴量および第2の特徴量に基づいて重要度を算出する。
(ステップST150)
重要度を算出した後、重要特徴量生成部230は、第1の特徴量および重要度に基づいて重要特徴量を生成する。
(ステップST160)
重要特徴量を生成した後、特徴量統合部240は、重要特徴量および第2の特徴量に基づいて統合特徴量を生成する。
(ステップST170)
統合特徴量を生成した後、識別部250は、統合特徴量に基づいてクラスを識別する。
以上説明したように、第1の実施形態に係る認識装置は、センサデータに基づいて、センサデータの特徴を有する第1の特徴量を生成し、第1の特徴量を、センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換し、第1の特徴量および第2の特徴量の相互相関に基づいて、クラスの識別において重要な特徴を有する重要特徴量を生成し、第2の特徴量および重要特徴量に基づいて、第1の特徴量および第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成し、統合特徴量に基づいてクラスを識別する。
従って、第1の実施形態に係る認識装置は、センサデータの特徴およびクラス識別の特徴の両方を考慮することにより、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる。
例えば、第1の実施形態に係る認識装置は、モダリティの異なる複数のセンサからのセンサデータを組み合わせてもよい。具体的には、センサデータは、同じ画像であっても可視光画像および赤外線画像のようにセンシングする周波数帯域が異なるものを組み合わせてもよい。この組み合わせの場合、例えば、人体を検出する際には、認識装置は、赤外線画像を強調して可視光画像を抑制するような特徴量の統合が行われる。
また、異なるセンサデータの組み合わせは、例えば、慣性センサから出力された時系列のセンサ信号と、マイクを用いて取得した音響信号とでもよい。例えば、認識装置は、作業者の頭部あるいは腕部に装着されたマイク、あるいは工作機器に設置されたマイクから現場の音響信号を取得すると同時に、作業者の腕や手首に装着した慣性センサを用いて作業者の動作に伴うセンサ信号を取得する。これにより、認識装置は、作業時の動作だけではなく、現場における音響情報を同時にセンサデータとして入力することが可能となり、作業特有の音響(例えば、工作機械から発せられる音響信号など)に着目した特徴量の統合を行うことが可能となり、作業動作の認識精度を高める効果が期待できる。
さらに、異なるセンサデータの組み合わせは、眼電位センサや筋電センサなどの生体センサから出力された信号と慣性センサから出力された信号との組み合わせでもよい。これにより、眼の動きや瞬き、筋肉の収縮活動を取得することが可能となり、慣性センサでは得られない特有のセンサ情報を手掛かりに認識精度を高めることができる。
(第2の実施形態)
第1の実施形態では、ネットワークモデルを用いて、センサデータからクラスを識別する認識装置について説明した。他方、第2の実施形態では、クラス識別の条件を変更する場合におけるネットワークモデルの切り替えについて説明する。
図7は、第2の実施形態に係る認識装置700の構成例を示すブロック図である。図7の認識装置700は、特徴量生成部210と、特徴量変換部220と、重要特徴量生成部230と、特徴量統合部240と、識別部250と、記憶部710と、モデル切替部720とを備える。尚、以降では、特徴量生成部210と、特徴量変換部220と、重要特徴量生成部230と、特徴量統合部240と、識別部250とを纏めて識別モデル200と称する。
記憶部710は、識別モデル200で用いられるネットワークモデルに関する情報を記憶している。例えば、記憶部710は、作業ドメインとネットワークモデルとを対応付けて記憶している。また例えば、記憶部710は、センサモダリティまたはセンサ装着部位とネットワークモデルとを対応付けて記憶している。また例えば、記憶部710は、作業者とネットワークモデルのパラメータとを対応付けて記憶している。
モデル切替部720は、識別モデル200のネットワークモデルに関する情報を含むモデル切替データに基づいて、識別モデルのネットワークモデルを切り替える。ネットワークモデルに関する情報には、例えば、作業ドメインの情報、入力されるセンサデータのセンサモダリティまたはセンサ装着部位の情報、および作業者の情報が含まれる。
なお、ネットワークモデルの切り替えは、ネットワークモデル自体の切り替えと、ネットワークモデルのパラメータの切り替えの両方を含む。よって、モデル切替部720は、ネットワークモデルおよびネットワークモデルのパラメータの少なくとも一方を切り替える。
図8は、第2の実施形態に係る認識装置700の動作例を示すフローチャートである。図8のフローチャートは、モデル切替処理およびクラス識別処理を含む。尚、クラス識別処理は、図6のフローチャートの一連の処理と同様であるため説明を省略する。
(ステップST210)
認識装置700は、モデル切替データを取得する。
(ステップST220)
モデル切替データを取得した後、モデル切替部720は、モデル切替データに基づいてネットワークモデルを切り替える。具体的には、モデル切替部720は、モデル切替データに含まれるネットワークモデルに関する情報に対応付けられたネットワークモデルを記憶部710から読み出し、識別モデル200のネットワークモデルを切り替える。
(ステップST230)
ネットワークモデルを切り替えた後、認識装置700は、切り替えられたネットワークモデルを利用したクラス識別処理を実行する。
以上説明したように、第2の実施形態に係る認識装置は、ネットワークモデルおよびネットワークモデルのパラメータの少なくとも一方を切り替えることができる。
従って、第2の実施形態に係る認識装置は、センサデータに応じたネットワークモデル、或いはネットワークモデルのパラメータを切り替えることにより、様々な状況に応じて適切な認識処理を行うことができる。
例えば、第2実施形態に係る認識装置によれば、工場などの作業ドメインや、物流現場の作業ドメインなど、異なる作業ドメインへの適用時にニューラルネットワーク識別モデルを切り替えることができる。また、本認識装置は、同じ作業ドメインであっても、センサの構成に変更があった場合(例えば、センサモダリティやセンサ装着位置が異なったものであったり、あるいは新たにセンサを後から追加したりした場合)であっても、ニューラルネットワーク識別モデルを切り替えることで、同じシステムの構成で柔軟に認識処理を行うことができる。
(第3の実施形態)
第1の実施形態および第2の実施形態では、予め学習されたネットワークモデルを用いて、センサデータからクラスを識別する認識装置について説明した。他方、第3の実施形態では、クラス識別の条件、或いは認識対象となるセンサデータを変更する場合におけるネットワークモデルの学習について説明する。
図9は、第3の実施形態に係る認識装置900の構成例を示すブロック図である。図9の認識装置900は、識別モデル200と、記憶部710と、モデル切替部720と、学習部910とを備える。
学習部910は、センサデータと正解となるクラスデータ(正解データ)とを対応付けた学習データセットを用いてネットワークモデルの学習を行う。学習部910は、ネットワークモデルの学習結果を、識別モデル200のモデルパラメータに反映させる。また、学習部910は、学習結果を記憶部710へと記憶させてもよい。
図9の記憶部710は、学習部910で用いられる学習データセットを更に記憶している。また、記憶部710は、学習部910によって学習が行われた学習結果を記憶してもよい。
図10は、第3の実施形態に係る認識装置900の動作例を示すフローチャートである。図10のフローチャートは、モデル切替処理、クラス識別処理、および学習処理を含む。尚、モデル切替処理およびクラス識別処理は、図8のフローチャートの一連の処理と同様であるため詳細な説明を省略する。
(ステップST310)
認識装置700は、モデル切替データを取得する。
(ステップST320)
モデル切替データを取得した後、モデル切替部720は、モデル切替データに基づいてネットワークモデルを切り替える。尚、以降では、切り替えられたネットワークモデルについて学習することとする。
(ステップST330)
ネットワークモデルを切り替えた後、認識装置900は、クラス識別処理を実行する。ネットワークモデルの学習を学習する場合、認識装置900は、学習データセットに含まれるセンサデータを用いてクラス識別処理を実行する。
(ステップST340)
クラス識別処理を実行した後、学習部910は、識別結果に基づいてネットワークモデルを学習する。具体的には、学習部910は、識別結果と正解データとの誤差がゼロになるようにネットワークモデルのモデルパラメータを更新する。より具体的には、学習部910は、識別結果と正解データとのクロスエントロピー誤差を算出し、誤差逆伝播法に基づいてモデルパラメータを更新する。
ここで、図3のように、識別部250が二つのネットワーク(第1識別部251および第2識別部252)で構成されている場合、二つのネットワークそれぞれの出力はクラス識別尤度に対応した分布(クラス識別尤度分布)になっている。そこで、学習部910は、二つのネットワークのクラス識別尤度分布の分布間距離を上記クロスエントロピー誤差に加えてネットワークの損失関数として扱ってもよい。
2つのクラス識別尤度分布間距離の算出には、例えばカルバック・ライブラー情報量を用いることができるが、これに限定するものではない。第2の特徴量でクラス識別するネットワークの出力分布をP、統合特徴量でクラス識別するネットワークの出力分布をQ、対象クラス変数をiとすると、両分布におけるカルバック・ライブラー情報量DKLは、以下の式(4)のように求められる。
よって、学習部910は、第2の特徴量に基づいて出力されたクラス識別尤度の分布と、統合特徴量に基づいて出力されたクラス識別尤度の分布とが等しくなるようにニューラルネットワークモデルを学習してもよい。この構成を用いれば、過去の識別結果を記憶部710に保存しておくことによって、識別部250は、過去一定区間の識別結果を用いて現在の識別結果を補正することもできる。例えば、識別部250は、過去一定区間に渡って記録しておいた識別結果のうち、最も頻度の高い識別結果を出力してもよい。こうすることで、何らかのセンサ値の異常などの影響で一時的な認識結果が変化する状態を避けることができ、センサ異常などのノイズ要因に対して頑健な認識システムを構築することができる。
以上説明したように、第3の実施形態に係る認識装置は、ニューラルネットワークモデルを学習することができる。
従って、第3の実施形態に係る認識装置は、ニューラルネットワークモデルを学習することにより、新たな環境でも適切な認識処理を行うことができる。
例えば、第3実施形態に係る認識装置によれば、同じ作業ドメインであっても、対象となる作業者の追加や変更があった場合に、少量のセンサデータと正解クラスを与えることで、ネットワークモデルの学習と更新を行うことができる。これにより、作業者へ適応した認識システムの展開が可能となり、より柔軟でノイズに対しても頑健な認識システムとして展開することができる。
(ハードウェア構成)
図11は、一実施形態に係るコンピュータのハードウェア構成を例示するブロック図である。コンピュータ1100は、ハードウェアとして、CPU(Central Processing Unit)1110と、RAM(Random Access Memory)1120と、プログラムメモリ1130と、補助記憶装置1140と、入出力インタフェース1150とを備える。CPU1110は、バス1160を介して、RAM1120、プログラムメモリ1130、補助記憶装置1140、および入出力インタフェース1150と通信する。
CPU1110は、汎用プロセッサの一例である。RAM1120は、ワーキングメモリとしてCPU1110に使用される。RAM1120は、SDRAM(Synchronous Dynamic Random Access Memory)などの揮発性メモリを含む。プログラムメモリ1130は、パラメータ更新処理プログラムなどを含む種々のプログラムを記憶する。プログラムメモリ1130として、例えば、ROM(Read-Only Memory)、補助記憶装置1140の一部、またはその組み合わせが使用される。補助記憶装置1140は、データを非一時的に記憶する。補助記憶装置1140は、HDDまたはSSDなどの不揮発性メモリを含む。
入出力インタフェース1150は、他のデバイスと接続するためのインタフェースである。入出力インタフェース1150は、例えば、集音デバイスおよび出力装置との接続に使用される。
プログラムメモリ1130に記憶されている各プログラムはコンピュータ実行可能命令を含む。プログラム(コンピュータ実行可能命令)は、CPU1110により実行されると、CPU1110に所定の処理を実行させる。例えば、クラス識別処理プログラムなどは、CPU1110により実行されると、CPU1110に図2、図7、および図9の各部に関して説明された一連の処理を実行させる。
プログラムは、コンピュータで読み取り可能な記憶媒体に記憶された状態でコンピュータ1100に提供されてよい。この場合、例えば、コンピュータ1100は、記憶媒体からデータを読み出すドライブ(図示せず)をさらに備え、記憶媒体からプログラムを取得する。記憶媒体の例は、磁気ディスク、光ディスク(CD-ROM、CD-R、DVD-ROM、DVD-Rなど)、光磁気ディスク(MOなど)、半導体メモリを含む。また、プログラムを通信ネットワーク上のサーバに格納し、コンピュータ1100が入出力インタフェース1150を使用してサーバからプログラムをダウンロードするようにしてもよい。
実施形態において説明される処理は、CPU1110などの汎用ハードウェアプロセッサがプログラムを実行することにより行われることに限らず、ASIC(Application Specific Integrated Circuit)などの専用ハードウェアプロセッサにより行われてもよい。処理回路(処理部)という語は、少なくとも一つの汎用ハードウェアプロセッサ、少なくとも一つの専用ハードウェアプロセッサ、または少なくとも一つの汎用ハードウェアプロセッサと少なくとも一つの専用ハードウェアプロセッサとの組み合わせを含む。図11に示す例では、CPU1110、RAM1120、およびプログラムメモリ1130が処理回路に相当する。
よって、以上の各実施形態によれば、クラス識別に用いられるニューラルネットワークの識別精度を向上させることができる。
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
1…認識システム、100,700,900…認識装置、110-1,110-2,110-n…センサ、120…ネットワーク、200…識別モデル、210…特徴量生成部、211…特徴量抽出用CNN、212…特徴量融合用CNN、220…特徴量変換部、221…特徴量変換用CNN、230…重要特徴量生成部、231…調整用CNN、232…第1の乗算部、233…第2の乗算部、240…特徴量統合部、241…加算部、250…識別部、251…第1識別部、252…第2識別部、710…記憶部、720…モデル切替部、910…学習部、1100…コンピュータ、1130…プログラムメモリ、1140…補助記憶装置、1150…入出力インタフェース、1160…バス、A_t…第2の特徴量、Att_t…重要特徴量、B_t…汎用特徴量、C_t…統合特徴量、CNN_t…第1の特徴量。

Claims (18)

  1. センサデータに基づいて、前記センサデータの特徴を有する第1の特徴量を生成する特徴量生成部と、
    前記第1の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換する特徴量変換部と、
    前記第1の特徴量および前記第2の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成する重要特徴量生成部と、
    前記第2の特徴量および前記重要特徴量に基づいて、前記第1の特徴量および前記第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する特徴量統合部と、
    前記統合特徴量に基づいて前記クラスを識別する識別部と
    を具備する、認識装置。
  2. 前記特徴量生成部は、前記センサデータの種類に関して特徴量を融合させること、およびセンサの装着部位に関して特徴量を融合させることの少なくとも一方によって前記第1の特徴量を生成する、
    請求項1に記載の認識装置。
  3. 前記特徴量変換部は、識別する前記クラスの数とフィルタの数とが同じになるように、前記第1の特徴量を前記第2の特徴量に変換する、
    請求項1または請求項2に記載の認識装置。
  4. 前記特徴量変換部は、前記フィルタに割り当てられた前記クラスを活性化するように、前記第1の特徴量を前記第2の特徴量に変換する、
    請求項3に記載の認識装置。
  5. 前記重要特徴量生成部は、
    前記第1の特徴量に基づいて、前記第2の特徴量と同じフィルタ数を有する汎用特徴量を生成し、
    前記汎用特徴量と前記第2の特徴量とを乗算することによって特徴量重要度を算出し、
    前記汎用特徴量と前記特徴量重要度とを乗算することによって前記重要特徴量を生成する、
    請求項1から請求項4までのいずれか一項に記載の認識装置。
  6. 前記重要特徴量生成部は、少なくともセンサデータの周波数特徴を含み、時間、前記センサデータの種類、およびセンサの装着部位のうちの少なくとも一つをさらに含む特徴要素を単位として、前記特徴量重要度を生成する、
    請求項5に記載の認識装置。
  7. 前記特徴量統合部は、前記第2の特徴量と前記重要特徴量とを加算、あるいは乗算することによって前記統合特徴量を生成する、
    請求項1から請求項6までのいずれか一項に記載の認識装置。
  8. 前記識別部は、過去の識別結果を利用して前記クラスを識別する請求項1から請求項7までのいずれか一項に記載の認識装置。
  9. 前記識別部は、センサ装着者の行動を識別する請求項1から請求項8までのいずれか一項に記載の認識装置。
  10. 前記識別部は、前記第2の特徴量に基づいて前記センサデータ全体のクラスを識別する、請求項1から請求項9までのいずれか一項に記載の認識装置。
  11. 前記特徴量生成部、前記特徴量変換部、前記重要特徴量生成部、前記特徴量統合部、および前記識別部を構成するニューラルネットワークモデルに関する情報を記憶する記憶部
    を更に具備する、
    請求項1から請求項10までのいずれか一項に記載の認識装置。
  12. 前記ニューラルネットワークモデルおよび前記ニューラルネットワークモデルのパラメータの少なくとも一方を切り替える切替部
    を更に具備する、請求項11に記載の認識装置。
  13. 前記ニューラルネットワークモデルを学習する学習部
    を更に具備する、
    請求項11または請求項12に記載の認識装置。
  14. 前記学習部は、前記第2の特徴量に基づいて出力されたクラス識別尤度の分布と、前記統合特徴量に基づいて出力されたクラス識別尤度の分布とが等しくなるように前記ニューラルネットワークモデルを学習する請求項13に記載の認識装置。
  15. 前記学習部は、学習結果を用いて前記ニューラルネットワークモデルを更新する、
    請求項13または請求項14に記載の認識装置。
  16. 前記学習部は、前記学習結果を前記記憶部へ記憶させる、
    請求項15に記載の認識装置。
  17. センサデータに基づいて、前記センサデータの特徴を有する第1の特徴量を生成することと、
    前記第1の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換することと、
    前記第1の特徴量および前記第2の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成することと、
    前記第2の特徴量および前記重要特徴量に基づいて、前記第1の特徴量および前記第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成することと、
    前記統合特徴量に基づいて前記クラスを識別することと
    を具備する、認識方法。
  18. コンピュータを、
    センサデータに基づいて、前記センサデータの特徴を有する第1の特徴量を生成する手段と、
    前記第1の特徴量を、前記センサデータのクラスを識別する際に寄与する特徴を有する第2の特徴量に変換する手段と、
    前記第1の特徴量および前記第2の特徴量の相互相関に基づいて、前記クラスの識別において重要な特徴を有する重要特徴量を生成する手段と、
    前記第2の特徴量および前記重要特徴量に基づいて、前記第1の特徴量および前記第2の特徴量のそれぞれの特徴を考慮した統合特徴量を生成する手段と、
    前記統合特徴量に基づいて前記クラスを識別する手段
    として機能させるためのプログラム。
JP2022009531A 2022-01-25 2022-01-25 認識装置、認識方法、およびプログラム Active JP7631246B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2022009531A JP7631246B2 (ja) 2022-01-25 2022-01-25 認識装置、認識方法、およびプログラム
US17/823,531 US12460954B2 (en) 2022-01-25 2022-08-31 Recognition apparatus, recognition method, and non-transitory computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2022009531A JP7631246B2 (ja) 2022-01-25 2022-01-25 認識装置、認識方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2023108413A JP2023108413A (ja) 2023-08-04
JP7631246B2 true JP7631246B2 (ja) 2025-02-18

Family

ID=87313691

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2022009531A Active JP7631246B2 (ja) 2022-01-25 2022-01-25 認識装置、認識方法、およびプログラム

Country Status (2)

Country Link
US (1) US12460954B2 (ja)
JP (1) JP7631246B2 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115226A (ja) 2014-12-17 2016-06-23 日本電気株式会社 特徴量抽出装置、認識装置、情報処理システム、特徴量抽出方法およびプログラム
WO2017065241A1 (ja) 2015-10-14 2017-04-20 国立大学法人東京工業大学 自動診断装置
JP2020190960A (ja) 2019-05-22 2020-11-26 株式会社東芝 認識装置、認識方法及びプログラム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5301310B2 (ja) * 2009-02-17 2013-09-25 株式会社日立製作所 異常検知方法及び異常検知システム
JP5530020B1 (ja) * 2013-11-01 2014-06-25 株式会社日立パワーソリューションズ 異常診断システム及び異常診断方法
US10226204B2 (en) * 2016-06-17 2019-03-12 Philips North America Llc Method for detecting and responding to falls by residents within a facility
WO2018163555A1 (ja) 2017-03-07 2018-09-13 コニカミノルタ株式会社 画像処理装置、画像処理方法、及び画像処理プログラム
US20230072423A1 (en) * 2018-01-25 2023-03-09 Meta Platforms Technologies, Llc Wearable electronic devices and extended reality systems including neuromuscular sensors
US12383162B2 (en) * 2019-06-19 2025-08-12 University Of Southern California Human activity recognition using magnetic induction-based motion signals and deep recurrent neural networks
JP7542802B2 (ja) 2019-07-25 2024-09-02 学校法人中部大学 ニューラルネットワークを用いた画像認識装置および画像認識装置に用いられるプログラム
US20230024586A1 (en) 2019-12-25 2023-01-26 Nec Corporation Learning device, learning method, and recording medium
WO2021130995A1 (ja) 2019-12-26 2021-07-01 日本電気株式会社 データ生成装置、学習システム、データ拡張方法、およびプログラム記録媒体
JP7494033B2 (ja) * 2020-07-07 2024-06-03 株式会社日立製作所 アクティビティ検出装置、アクティビティ検出システム及びアクティビティ検出方法
US20220138536A1 (en) * 2020-10-29 2022-05-05 Hong Kong Applied Science And Technology Research Institute Co., Ltd Actional-structural self-attention graph convolutional network for action recognition
US20220249906A1 (en) * 2021-02-05 2022-08-11 Google Llc On-device activity recognition
US12277382B2 (en) * 2021-10-28 2025-04-15 Lenovo (United States) Inc. Method and system to modify speech impaired messages utilizing neural network audio filters

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2016115226A (ja) 2014-12-17 2016-06-23 日本電気株式会社 特徴量抽出装置、認識装置、情報処理システム、特徴量抽出方法およびプログラム
WO2017065241A1 (ja) 2015-10-14 2017-04-20 国立大学法人東京工業大学 自動診断装置
JP2020190960A (ja) 2019-05-22 2020-11-26 株式会社東芝 認識装置、認識方法及びプログラム

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
池ヶ谷 剛 外,認知機能自動評価システムのための一人称視点による調理動作認識,情報処理学会 研究報告 モバイルコンピューティングとパーベイシブシステム(MBL) 2017-MBL-082,2017年03月02日,pp. 1-8

Also Published As

Publication number Publication date
US12460954B2 (en) 2025-11-04
US20230236047A1 (en) 2023-07-27
JP2023108413A (ja) 2023-08-04

Similar Documents

Publication Publication Date Title
Semwal et al. An optimized hybrid deep learning model using ensemble learning approach for human walking activities recognition: VB Semwal et al.
JP7213241B2 (ja) ニューラルネットワークに関するマルチタスク学習のためのメタ学習
JP7520123B2 (ja) 人間-ロボット混在製造プロセスにおける自動異常検出のためのシステムおよび方法
CN110263870B (zh) 运动状态识别方法、装置、智能终端和存储介质
JP5520886B2 (ja) 行動モデル学習装置、方法、及びプログラム
JP2019139277A (ja) 評価装置、動作制御装置、評価方法、及び評価プログラム
CN113557069B (zh) 用于手势分类和施加的力估计的无监督机器学习的方法和装置
CN105411593A (zh) 用于识别步态任务的方法和设备
CN109765991A (zh) 社交互动系统、用于帮助用户进行社交互动的系统及非暂时性计算机可读存储介质
Espinosa et al. Application of convolutional neural networks for fall detection using multiple cameras
Hajjej et al. Deep human motion detection and multi-features analysis for smart healthcare learning tools
JP2022126962A (ja) 発話内容認識装置、学習データ収集システム、方法及びプログラム
Lastrico et al. Careful with that! Observation of human movements to estimate objects properties
JP5910249B2 (ja) インタラクション装置およびインタラクション制御プログラム
Zhang et al. Human activity recognition based on multi-modal fusion: C. Zhang et al.
Ramadoss et al. Computer vision for human‐computer interaction using noninvasive technology
JP7631246B2 (ja) 認識装置、認識方法、およびプログラム
Faye et al. A two-level approach to characterizing human activities from wearable sensor data
KR20220005945A (ko) 얼굴 표정에 관한 데이터 세트를 생성하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능 기록 매체
CN118201554A (zh) 认知功能评估系统和训练方法
KR20210054349A (ko) 환자의 상지 동작에 의해 도출되는 특징값을 이용한 임상평가척도 예측 방법
Goh et al. Multilayer perceptron neural network classification for human vertical ground reaction forces
Steffan et al. Online stability estimation based on inertial sensor data for human and humanoid fall prevention
Koo et al. Post-fall detection using ANN based on ranking algorithms
Jimenez et al. Toward inertial position tracking for head-mounted displays: a dataset and a deep learning approach evaluation

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20230105

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20240301

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20241211

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20250107

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20250205

R150 Certificate of patent or registration of utility model

Ref document number: 7631246

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150