JP6888312B2 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6888312B2
JP6888312B2 JP2017017413A JP2017017413A JP6888312B2 JP 6888312 B2 JP6888312 B2 JP 6888312B2 JP 2017017413 A JP2017017413 A JP 2017017413A JP 2017017413 A JP2017017413 A JP 2017017413A JP 6888312 B2 JP6888312 B2 JP 6888312B2
Authority
JP
Japan
Prior art keywords
sensor
information
sensor information
state
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017017413A
Other languages
English (en)
Other versions
JP2018124852A (ja
Inventor
理敏 関根
理敏 関根
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Oki Electric Industry Co Ltd
Original Assignee
Oki Electric Industry Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oki Electric Industry Co Ltd filed Critical Oki Electric Industry Co Ltd
Priority to JP2017017413A priority Critical patent/JP6888312B2/ja
Priority to CN201711361479.1A priority patent/CN108388166A/zh
Priority to US15/886,796 priority patent/US20180218242A1/en
Publication of JP2018124852A publication Critical patent/JP2018124852A/ja
Application granted granted Critical
Publication of JP6888312B2 publication Critical patent/JP6888312B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B19/00Programme-control systems
    • G05B19/02Programme-control systems electric
    • G05B19/04Programme control other than numerical control, i.e. in sequence controllers or logic controllers
    • G05B19/042Programme control other than numerical control, i.e. in sequence controllers or logic controllers using digital processors
    • G05B19/0423Input/output
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24143Distances to neighbourhood prototypes, e.g. restricted Coulomb energy networks [RCEN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/25Fusion techniques
    • G06F18/253Fusion techniques of extracted features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G05CONTROLLING; REGULATING
    • G05BCONTROL OR REGULATING SYSTEMS IN GENERAL; FUNCTIONAL ELEMENTS OF SUCH SYSTEMS; MONITORING OR TESTING ARRANGEMENTS FOR SUCH SYSTEMS OR ELEMENTS
    • G05B2219/00Program-control systems
    • G05B2219/20Pc systems
    • G05B2219/25Pc structure of the system
    • G05B2219/25257Microcontroller
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06F18/2414Smoothing the distance, e.g. radial basis function networks [RBFN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Automation & Control Theory (AREA)
  • Arrangements For Transmission Of Measured Signals (AREA)

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
近年、技術の発展に伴い、対象の状態を検出する種々のセンサ装置が開発されている。また、上記のようなセンサ装置により取得されたセンサ情報を用いて、対象の状態に係る判別を行う手法や、当該判別の結果に基づいて各種装置の動作制御を行う手法も多く提案されている。
例えば、特許文献1には、複数のローパスフィルタと検出センサ用の電源回路とを機能拡張用カードの外部に設けた中間ユニットに配置した回転機の診断装置が開示されている。
また、特許文献2には、強化学習を用いてサンプリング周波数や周波数領域における所定の帯域分割数などのパラメータを調整することで判別精度を向上させる判別システムが開示されている。
また、非特許文献1には、IEEE 802.15.4eに規格されるネットワークにおいて、MACレイヤ上での通信パラメータを、強化学習を用いて最適化する手法が開示されている。
また、非特許文献2には、畳み込みニューラルネットワークと強化学習とを組み合わせた手法により、コンピュータゲームにおける次コマンドに係る価値関数の出力を近似する技術が開示されている。
特開2005−337965号公報 特開2006−79279号公報
H. Kapil, C. S. R. Murthy、「A Pragmatic ReplyPlacement Approach in 3-D Space and Q-Learning-Based Transmission Scheme forReliable Factory Automation Applications」、IEEE SystemsJournal、2016年3月3日、Volume: PP、Issue99、pp.1-11 V. Mnih、外18名、「Human-level control through deep reinforcement learning」、Nature、2015年2月25日、518.7540、pp.529-533
しかし、特許文献1に記載の技術では、センサ情報に基づいた状態の検出や、データ収集装置への転送制御については考慮されていない。また、特許文献2に記載の技術では、判別精度の最適化を行っているものの、通信コストと判別精度とのトレードオフについては考慮されていない。
また、非特許文献1に記載の技術では、例えば、転送されたデータを利用した認識など、上位レイヤにおけるパラメータの最適化については考慮されていない。また、非特許文献2に記載の技術では、自律分散的なセンサ端末に係る送信制御や、判別精度や通信コストなどトレードオフ関係にあるパラメータを含む報酬に基づいた強化学習については考慮されていない、という問題があった。
そこで、本発明は、上記問題に鑑みてなされたものであり、本発明の目的とするところは、判別精度を維持しながらセンサ情報の通信コストを大きく低減することが可能な、新規かつ改良された情報処理装置、情報処理方法、およびプログラムを提供することにある。
上記課題を解決するために、本発明のある観点によれば、複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別する判別部と、前記センサ情報の通信コストと前記判別部による判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定する送信制御モデル構築部と、を備え、前記判別部は、前記送信制御モデル構築部により決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別する、情報処理装置が提供される。
前記送信制御モデル構築部は、強化学習により得られる価値関数に基づいて、前記センサ情報の送信要否を前記センサ端末ごとに決定してもよい。
前記送信制御モデル構築部は、強化学習により得られる送信要否の価値関数の値に対応した確率に基づいて、前記センサ情報の送信要否を前記センサ端末ごとに決定してもよい。
前記送信制御モデル構築部は、ニューラルネットワークを用いて前記価値関数を近似してもよい。
前記送信制御モデル構築部は、前記センサ情報と当該センサ情報を送信するセンサ端末の情報とを前記ニューラルネットワークに入力し、前記価値関数を近似してもよい。
前記判別部は、複数の前記センサ端末ごとに受信する複数種別のセンサ情報に基づく学習結果を用いて前記観測対象の状態を判別し、前記送信制御モデル構築部は、前記センサ情報の送信要否を前記センサ端末およびセンサ種別ごとに決定してもよい。
前記通信コストは、前記センサ端末から送信される前記センサ情報のデータ量、または前記センサ情報の送信に係る前記センサ端末の消費電力のうち、すくなくともいずれかを含んでよい。
また、上記課題を解決するために、本発明の別の観点によれば、複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別することと、前記センサ情報の通信コストと前記観測対象の状態に係る判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定することと、を含み、前記判別することは、決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別すること、をさらに含む、情報処理方法が提供される。
また、上記課題を解決するために、本発明の別の観点によれば、コンピュータを、複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別する判別部と、前記センサ情報の通信コストと前記判別部による判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定する送信制御モデル構築部と、を備え、前記判別部は、前記送信制御モデル構築部により決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別する、情報処理装置、として機能させるためのプログラムが提供される。
以上説明したように本発明によれば、判別精度を維持しながらセンサ情報の通信コストを大きく低減することが可能となる。
本発明の第1の実施形態に係るシステム構成の一例を示す図である。 同実施形態に係る複数のセンサ端末が備える複数のセンサのすべてが、全時間帯においてセンサ情報を送信する場合の例を示す図である。 同実施形態に係るセンサ端末が送信制御モデルに基づいて送信するセンサ情報の一例を示す図である。 同実施形態に係るセンサ端末の機能ブロック図の一例である。 同実施形態に係る情報処理装置の機能ブロック図の一例である。 同実施形態に係る学習データ収集フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。 同実施形態に係る特徴ベクトル抽出部が抽出する特徴ベクトルの一例を示す図である。 同実施形態に係る状態正解値の入力について説明するための図である。 同実施形態に係る送信制御モデル構築フェーズにおける情報処理装置の動作の流れを示すフローチャートである。 同実施形態に係るセンサ端末の組み合わせによる判別精度の差について説明するための図である。 同実施形態に係る強化学習の動作モデルを示す図である。 同実施形態に係る時刻tにおける価値関数Qを表形式で示した一例である。 同実施形態に係る状態判別フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。 本発明の第2の実施形態に係る信制御モデルの構築において価値関数の近似に用いられるニューラルネットワークのネットワーク構成例を示す図である。 同実施形態に係る習データ収集フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。 本発明に係る情報処理装置のハードウェア構成例である。
以下に添付図面を参照しながら、本発明の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
<1.本発明の概要>
まず、本発明の概要について説明する。上述したとおり、近年においては、観測対象の状態を観測する種々のセンサ端末が開発されている。また、上記のようなセンサ端末により取得されたセンサ情報に基づいて、観測対象の状態を判別する手法も多く提案されている。
例えば、物品を製造する工場などにおいては、種々の設備や装置、製品などが用いられるが、上記のような観測対象は、機器の動作に関する制御信号などを直接取得することができない場合も多いため、外付けのセンサ端末により状態を検知することも広く行われている。
この場合、例えば、観測対象の周囲に配置した複数のセンサ端末から振動データや音響データなどのセンサ情報を取得することで、観測対象の状態を動的に判別することが可能である。
また、得られたセンサ情報を分析、評価することで、移動軌跡や稼働状況の取得、異常予兆検知などを行うことができ、生産や作業効率の改善や安全性の確保などを実現することができる。
一方、振動データや音響データなど、比較的高いサンプリング周波数やデータ転送量を低帯域無線通信などにより収集する場合、センサ情報の通信コストと判別精度とは、一般にトレードオフの関係となり得る。しかし、従来における判別手法では、上記のようなトレードオフが考慮されておらず、より効率的なデータ通信および判別を実現する手法が望まれていた。
本発明は上記の点に着目して発想されたものであり、観測対象の状態判別に係る精度を高く維持しながらも、効率的に通信コストを低減することを可能とする。このために、本発明は、通信コストと判別精度に基づくセンサ情報の送信要否をセンサ端末およびセンサ種別ごとに決定した送信制御モデルを構築すること、を特徴の一つとする。また、本発明では、上記の送信制御モデルの構築に強化学習が用いられてよい。以下の実施形態の説明では、本発明に係る情報処理装置の構成や、上記の特徴が奏する効果について詳細に説明する。
<2.第1の実施形態>
<<2.1.第1の実施形態の概要>>
まず、本発明に係る第1の実施形態について説明する。上述したとおり、本発明は、複数のセンサ端末により取得されたセンサ情報に基づく観測対象の状態判別において、判別精度の維持と通信コストの抑制を両立することを可能とする。
図1は、本実施形態に係るシステム構成の一例を示す図である。図1を参照すると、本実施形態に係る情報処理システムは、観測対象10、複数のセンサ端末20、および情報処理装置30を含み得る。また、センサ端末20および情報処理装置30は、ネットワーク40を介して接続される。
(観測対象10)
本実施形態に係る観測対象10は、情報処理装置30による状態判別の対象である。本実施形態に係る観測対象10は、例えば、工場における種々の装置や製品、企業や家庭に設置される電子機器などであってもよい。また、観測対象10は、建物、橋、道路などの建造物を含んでもよい。また、本実施形態に係る観測対象10は、センサ端末20によるセンサ情報の取得対象となる1つ以上の内部装置110を備える。図1の一例では、観測対象10が2つの内部装置110aおよび110bを備える場合が示されている。
(センサ端末20)
本実施形態に係るセンサ端末20は、観測対象10が備える内部装置110から種々のセンサ情報を収集する端末である。センサ端末は一般に観測可能な範囲が物理的および空間的に限定されるため、本実施形態に係るセンサ端末20は、図1に示すように、1つの観測対象10に対して複数配置されてよい。図1の一例では、観測対象10に対して4つのセンサ端末20a〜20dが配置される場合が示されている。
また、本実施形態に係るセンサ端末20は、観測対象10の内部装置110に係る種々のセンサ情報を収集することができる。このために、本実施形態に係るセンサ端末20は、図1に示すように、それぞれ複数のセンサ210を備えてよい。本実施形態に係るセンサ210は、例えば、振動センサ、音響センサ、熱センサ、照度センサ、撮像センサなどであり得る。本実施形態に係るセンサ端末20は、上記のようなセンサ210を複数備えることで、観測対象10の稼働状態に応じた異なる物理現象を捉えることができる。
(情報処理装置30)
本実施形態に係る情報処理装置30は、複数のセンサ端末20から送信されるセンサ情報に基づいて、観測対象10の状態を判別する装置である。この際、本実施形態に係る情報処理装置30は、上記の判別をリアルタイムに行ってよい。すなわち、観測対象10の状態に変化が生じた際、センサ端末20は、当該状態の変化に応じたセンサ情報を情報処理装置30に即時送信し、情報処理装置30は、センサ端末20から送信されるセンサ情報に基づく状態判別結果を都度出力することができる。
一方、情報処理装置30による状態判別には、センサ端末20から判別に必要十分なセンサ情報が送信されることが求められる。また、一般に各状態に応じたより顕著な特徴を抽出できるほど、判別の精度は向上する。このため、より高精度な判別や通信コストの低減を実現するためには、例えば、振動の状況に関する専門知識を有する有識者が、適切なセンサ端末20の配置を指定することも想定される。しかしながら、観測対象10の内部構造が複雑であり実際にデータを取得してみなければ適切な判断が行えない場合や、専門知識を有しない者がセンサ端末20配置する状況も想定される。このため、本実施形態に係るセンサ端末20の種類や配置は常に適切に行われるとは限らない。
例えば、図1に示す内部装置110の動作有無を検知するためには、センサ端末20aまたは20bが有するいずれかのセンサ210から送信されるセンサ情報のみで十分な場合もある。また、同様に、内部装置110bの動作有無を検知するためには、センサ端末20bまたは20dが有するいずれかのセンサ210から送信されるセンサ情報のみで十分な場合もある。このように、観測対象10の状態によっては、複数のセンサ端末20が有する複数のセンサ210のうち、一部のセンサ210から得られるセンサ情報のみで十分な精度の判別を行える場合も多い。
このため、判別精度のみを重視して、すべてのセンサ端末20が備えるすべてのセンサ210から、全時間帯においてセンサ情報を送信することは、効率的とは言い難い。図2は、本実施形態に係る複数のセンサ端末20が備える複数のセンサ210のすべてが、全時間帯においてセンサ情報を送信する場合の例を示す図である。図2に示す一例の場合、複数のセンサ210a−1〜210n−nは、それぞれ収集したセンサ情報ST−a1〜ST−nnを全時間帯において情報処理装置30に送信している。上記のような処理を行う場合、例えば、以下のようないくつかの弊害が想定される。
まず、想定される問題としては、通信帯域の浪費が挙げられる。センサ端末20と情報処理装置30とは、設置コストや利便性の観点から無線通信で接続される場合もある。ここで、図2に示すように、すべてのセンサ210が全時間帯にセンサ情報を送信する場合、無線通信における帯域を必要以上に浪費することが容易に想定される。また、例えば、920MHzなどの低帯域の無線通信では、十分なデータを転送できず、パケットロスなどによるデータの転送遅延や欠損が生じる可能性も考えられる。この結果、必要なデータを受信できず、判別精度の低下や判別の遅延が発生することも懸念される。また、複数のセンサ端末20で回線を共有する有線ネットワークを用いる場合にも、上記の同様の現象は発生し得る。
また、電力の浪費も懸念される。一般に無線通信でデータを転送するセンサ端末はバッテリで駆動するため、冗長な無線データの転送により消費電力が増大し、早期にバッテリ切れが発生する可能性も考えられる。この結果、有線もしくは無線給電で外部電力の供給が行えるシステムであっても、必要以上の電力を消費してしまうなどの問題が生じ得る。
さらには、データ処理やデータ保持に係るコストの増大も想定される。情報処理装置30による状態判別に必要以上のデータを送受信することは、判別におけるデータ処理量の増加を招くと同時に、センサ端末20やストレージなどによるデータ保持のコストをいたずらに増加させてしまう。
上記の問題を排除するため、本実施形態では、状態の判別に必要なセンサ情報を確保して判別精度を維持しながら、必要なセンサ端末20が必要な際に必要なセンサ210により収集したセンサ情報を送信してよい。より具体的には、本実施形態に係る情報処理装置30は、通信コストと判別精度に基づくセンサ情報の送信要否をセンサ端末およびセンサ種別ごとに決定した送信制御モデルを構築し、センサ端末20は、上記の送信制御モデルに基づいて、センサ情報の送信を行ってよい。
図3は、本実施形態に係るセンサ端末20が送信制御モデルに基づいて送信するセンサ情報の一例を示す図である。図3に示す一例の場合、センサ端末20a〜20nは、それぞれが有するセンサ210a−1〜210n−nにより収集したセンサ情報を、それぞれ異なるタイミングで情報処理装置30に送信している。この際、センサ端末20a〜20nは、上述したように、情報処理装置30により構築された送信制御モデルに基づいてセンサ情報の送信を行ってよい。すなわち、本実施形態に係るセンサ端末20は、情報処理装置30による状態判別に必要なセンサ情報のみを必要なタイミングで送信することができる。本実施形態に係る上記の特徴によれば、判別に必要なセンサ情報のみを送信することができ、判別精度を維持しながらも、空間的また時間的に通信コストを低減することが可能となる。
以上、本実施形態の概要について説明した。なお、図1を用いて説明したシステム構成はあくまで一例であり、本実施形態に係るシステム構成は係る例に限定されない。例えば、図1では、観測対象10が2つの内部装置110aおよび110bを備え、4つのセンサ端末20a〜20dが配置される場合を例に示したが、本実施形態に係る内部装置110やセンサ端末20の数は、本例に限定されない。また、本実施形態に係る観測対象10とセンサ端末20のセットは複数存在してもよい。本実施形態に係るシステム構成は、観測対象の特性やネットワーク40の仕様などに応じて、柔軟に変形され得る。
<<2.2.センサ端末20の機能構成例>>
次に、本実施形態に係るセンサ端末20の機能構成例について説明する。図4は、本実施形態に係るセンサ端末20の機能ブロック図の一例である。図4を参照すると、本実施形態に係るセンサ端末20は、センサ210、データ通信部220、および通信制御部230を備える。
(センサ210)
本実施形態に係るセンサ210は、観測対象10の内部装置110に係るセンサ情報を収集する機能を有する。上述したとおり、本実施形態に係るセンサ端末20は、複数のセンサ210を備えてよい。また、センサ210の一例としては、振動センサ、音響センサ、熱センサ、照度センサ、および撮像センサなどが挙げられる。なお、上記はあくまで一例であり、本実施形態に係るセンサ端末20は、観測対象10の特性に応じた種々のセンサ210を備えてよい。
(データ通信部220)
本実施形態に係るデータ通信部220は、通信制御部230による制御に基づいて、センサ情報を情報処理装置30に送信する機能を有する。この際、データ通信部220は、センサ210が収集したセンサ情報がアナログ信号である場合には、当該アナログ信号をデジタル信号に変換して情報処理装置30に送信してよい。また、データ通信部220は、センサ端末20に係る種々の情報を情報処理装置30に送信する。上記の情報には、例えば、センサ端末20を特定する識別子や、センサ端末20のバッテリ残量に係る情報などが含まれてもよい。
(通信制御部230)
本実施形態に係る通信制御部230は、情報処理装置30が構築する送信制御モデルに基づいて、データ通信部220にセンサ情報を送信させる機能を有する。より具体的には、通信制御部230は、送信制御モデルに基づいて、センサ端末20が備えるセンサ210ごとにセンサ情報の送信要否を判断し、データ通信を制御する。
以上、本実施形態に係るセンサ端末20の機能構成例について説明した。なお、図4を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係るセンサ端末20の機能構成は係る例に限定されない。例えば、本実施形態に係る通信制御部230は、センサ端末20の外部に設けられてもよい。また、センサ端末20は、図4に示した以外の構成をさらに備えてもよい。センサ端末20は、例えば、ユーザによる操作を受け付ける入力部やセンサ情報を記憶する記憶部などをさらに備えることができる。本実施形態に係るセンサ端末20の機能構成は柔軟に変形され得る。
<<2.3.情報処理装置30の機能構成例>>
次に、本実施形態に係る情報処理装置30の機能構成例について説明する。図5は、本実施形態に係る情報処理装置30の機能ブロック図の一例である。図5を参照すると、本実施形態に係る情報処理装置30は、学習・判別処理部310および、送信制御モデル構築部320とを備える。
(学習・判別処理部310)
本実施形態に係る学習・判別処理部310は、センサ端末20から受信するセンサ情報とユーザにより入力される状態正解値とに基づいて、観測対象10の状態判別に係る学習を行う機能を有する。また、本実施形態に係る学習・判別処理部310は、上記の学習結果を用いて観測対象10の状態を判別する判別部として機能する。この際、本実施形態に係る学習・判別処理部310は、後述する送信制御モデル構築部320により決定された送信要否に基づいて送信されるセンサ情報に基づいて、観測対象10の状態を判別してよい。このために、本実施形態に係る学習・判別処理部310は、図3に示すように、データ受信部3110、データ前処理部3120、特徴ベクトル処理部3130、学習モデル処理部3140、状態正解値入力部3150、学習データ記憶部3160、判別率算出部3170、および判別結果出力部3180を備える。
((データ受信部3110))
データ受信部3110は、ネットワーク40を介して複数のセンサ端末20からセンサ情報を受信する機能を有する。また、データ受信部3110は、上記のセンサ情報と共に、センサ端末20に係る種々の情報を受信してよい。
((データ前処理部3120))
データ前処理部3120は、データ受信部3110が受信したセンサ情報に係る前処理を行う機能を有する。上記の前処理には、例えば、雑音除去フィルタリングや、フーリエ変換を利用したパワースペクトル、スペクトログラムなどの計測値変換などが含まれてよい。なお、本実施形態に係るデータ前処理部3120は、上記の例に限らず、受信するセンサ情報の特性に応じた種々の処理を実施してよい。
((特徴ベクトル処理部3130))
特徴ベクトル処理部3130は、データ前処理部3120により処理されたセンサ情報から当該センサ情報に係る特徴ベクトルを抽出する機能を有する。この際、本実施形態に係る特徴ベクトル処理部3130は、センサ情報の特性に応じて特徴ベクトルを抽出することができる。例えば、センサ情報が振動データや音響データである場合、特徴ベクトル処理部3130は、周波数領域における卓越周波数、平均周波数などを組み合わせて特徴ベクトルを抽出してもよい。なお、データ前処理部3120により処理されたセンサ情報をそのまま特徴ベクトルとしてもよい。
((学習モデル処理部3140))
学習モデル処理部3140は、特徴ベクトル処理部3130が抽出した特徴ベクトルと、ユーザにより入力される状態正解値とに基づいて、観測対象10の状態を判別する学習モデルを構築する機能を有する。この際、学習モデル処理部3140は、機械学習分野で用いられる種々の手法やアルゴリズムを用いて上記の学習モデルを構築してよい。また、学習モデル処理部3140は、構築した学習モデルと抽出された特徴ベクトルとに基づいて観測対象10の状態判別を行ってよい。
((状態正解値入力部3150))
状態正解値入力部3150は、現在観測されている観測対象10の状態の名称やラベルを入力するための構成である。上記の入力は、ユーザによる入力操作に基づいて行われてよい。このために、本実施形態に係る状態正解値入力部3150は、キーボード、マウス、ボタン、スイッチ、タッチパネルなどの入力装置を含んで構成される。
((学習データ記憶部3160))
学習データ記憶部3160は、それぞれのセンサ端末20から送信されるセンサ情報から抽出された特徴ベクトルと、状態正解値入力部3150を介して入力される状態正解値とを組み合わせて保存する機能を有する。
((判別率算出部3170))
判別率算出部3170は、観測対象10のある状態における複数の学習データに対し、上述した学習モデルに入力した際の判別の正誤から、状態判別に係る判別率を算出する機能を有する。
((判別結果出力部3180))
判別結果出力部3180は、学習モデル処理部3140による判別の結果をユーザに提示する機能を有する。このために、本実施形態に係る判別結果出力部3180は、例えば、表示装置を含んで構成され得る。表示装置の一例としては、例えば、CRT(Cathode Ray Tube)ディスプレイ装置、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置などが挙げられる。
(送信制御モデル構築部320)
本実施形態に係る送信制御モデル構築部320は、センサ情報の通信コストと学習・判別処理部310による判別精度とに基づいてセンサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定する機能を有する。この際、本実施形態に係る送信制御モデル構築部320は、強化学習によりセンサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定してよい。すなわち、本実施形態に係る送信制御モデル構築部320は、センサ端末20ごとに固有の送信制御モデルを構築することができる。また、送信制御モデル構築部320は、図5に示すように、状態・報酬処理部3210、強化学習処理部¥3220、およびモデル転送部3230を含んで構成される。
((状態・報酬処理部3210))
状態・報酬処理部3210は、センサ端末20ごとの報酬を算出する機能を有する。具体的には、状態・報酬処理部3210は、対象となるセンサ端末20から送信されるセンサ情報から抽出された特徴ベクトルや、当該特徴ベクトルに基づく判別結果、対象以外のセンサ端末20に係るセンサ情報の送信・非送信状態、判別結果や通信コストを含む指標に基づいた報酬を算出してよい。
((強化学習処理部3220))
強化学習処理部3220は、観測対象10の状態や報酬に応じた行動の価値関数を求め、当該価値関数に基づく送信要否の制御モデルを構築する機能を有する。本実施形態に係る強化学習処理部3220が有する機能の詳細については別途後述する。
((モデル転送部3230))
モデル転送部3230は、強化学習処理部3220により構築される送信制御モデルを対応するセンサ端末20に送信する機能を有する。
以上、本実施形態に係る情報処理装置30の機能構成例について説明した。なお、図5を用いて説明した上記の機能構成はあくまで一例であり、本実施形態に係る情報処理装置30の機能構成は係る例に限定されない。例えば、情報処理装置30が有する機能は、複数の装置により分散して実現されてもよい。また、データ前処理部3120や特徴ベクトル処理部3130は、判別に用いられるセンサ情報の特性や、アルゴリズムなどによっては必ずしも必要とされない。
また、上記では、モデル転送部3230が構築された送信制御モデルをセンサ端末20に送信する場合を例に述べたが、本実施形態に係る情報処理装置30は、上記の送信制御モデルに基づいてセンサ端末20に係る送信制御を行うことも可能である。本実施形態に係る情報処理装置30の機能構成は柔軟に変形され得る。
<<2.4.情報処理装置30の動作>>
次に、本実施形態に係る情報処理装置30の動作について説明する。本実施形態に係る情報処理装置30の動作は、観測対象10の各状態におけるセンサ情報を収集する学習データ収集フェーズ、上述した価値関数に基づく送信制御モデルを構築する送信制御モデル構築フェーズ、および送信制御モデルに基づいて送信されるセンサ情報により観測対象10の状態を判別する状態判別フェーズの3つに分類される。
(学習データ収集フェーズ)
まず、本実施形態に係る学習データ収集フェーズについて説明する。図6は、本実施形態に係る学習データ収集フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。
図6を参照すると、学習データ収集フェーズでは、まずデータ受信部3110が観測対象10のすべての状態において、複数のセンサ端末20からセンサ情報を受信する(S1101)。
次に、データ前処理部3120は、ステップS1101で受信したセンサ情報に対する周波数フィルタリングなどの前処理を実行する(S1102)。
次に、特徴ベクトル処理部3130は、ステップS1102で前処理されたセンサ情報から特徴ベクトルの抽出を行う(S1103)。図7は、本実施形態に係る特徴ベクトル処理部3130が抽出する特徴ベクトルの一例を示す図である。例えば、図7に示すように、観測対象10の状態が状態S1〜SMまでのM種類存在し、またN個のセンサ端末20において1状態につきd個のセンサ情報が取得される場合、特徴ベクトル処理部3130は、合計d×N×M個の特徴ベクトルを抽出してよい。
次に、状態正解値入力部3150は、ユーザにより入力される観測対象10の状態S1〜SMに対応する状態正解値を取得する(S1104)。図8は、本実施形態に係る状態正解値の入力について説明するための図である。図8には、観測対象10と、配置される複数のセンサ端末20aおよび20bと、情報処理装置30と、ユーザU1とが示されている。ここで、図8に示すように、ユーザU1は、観測対象10が実際にどのような状態にあるかを目視などにより確認し、当該状態に係る状態正解値を状態正解値入力部3150に入力してよい。この際、ユーザU1は、例えば、観測対象10の状態に係るセンサ情報の取得中や取得直後に、状態正解値をキー入力したり、状態に対応付いたボタンなどを押下することで状態正解値を入力したりしてもよい。上記によればセンサ情報や当該センサ情報から抽出された特徴ベクトルと観測対象10の真の状態とを正しく対応付けることができる。
次に、学習データ記憶部3160は、センサ情報やステップS1103で抽出された特徴ベクトルをステップS1104で取得された状態正解値と対応付けて保存する(S1105)。
次に、学習モデル処理部3140は、後述する送信制御モデル構築フェーズにおいて強化学習の状態として用いられる判別結果を出力する判別モデルを構築する(S1106)。この際、学習モデル処理部3140は、センサ端末20のセンサ210から収集されたセンサ情報を1つのみ用いた場合の、観測対象の各状態における特徴ベクトルから判別モデルを構築してよい。例えば、データ受信部3110がN個のセンサ端末20からセンサ情報を受信する場合、学習モデル処理部3140は、合計N個の判別モデルを構築できる。
(送信制御モデル構築フェーズ)
次に、本実施形態に係る送信制御モデル構築フェーズについて説明する。上述したように、本実施形態に係る送信制御モデル構築フェーズでは、センサ端末20によるセンサ情報の送信を制効果的に制御するための送信制御モデルが構築される。
この際、本実施形態に係る送信制御モデル構築部320は、強化学習により得られる価値関数に基づいて、センサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定した送信制御モデルを構築することができる。より具体的には、送信制御モデル構築部320は、強化学習により得られる送信要否の価値関数の値に対応した確率に基づいて、センサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定してよい。
ここで、本実施形態に用いられる強化学習について説明する。強化学習とは、エージェントにタスクに対する正解行動を与えずに、環境から得られる報酬に基づき状況に応じた適切な行動を学習させる手法である。例えば、強化学習の一種であるQ学習では、状態sと行動aとの組み合わせに対する価値関数Q(s,a)を推定することで、行動の学習を行う。
例えば、エージェントが時刻tにおける状態sで、行動aをとった結果、新たな状態st+1に遷移し、報酬rt+1を受け取った場合、価値関数Qは、以下の数式(1)により定義され得る。
Figure 0006888312
ここで、上記の数式(1)におけるaおよびγは、それぞれ学習率および割引率を示し、いずれも0より大きく1未満の範囲をとる。また、数式(1)におけるrt+1+γmaxat+1Q(St+1,at+1)−Q(S,a)によれば、次状態において選択可能な行動の中で最大の価値関数Qが取得されることとなる。このように、強化学習においては、エージェントが一連の行動を通じて環境から与えられる報酬が最大となるような方策を学習するこができる。
すなわち、本実施形態においては、それぞれのセンサ端末20がどのようなタイミングでどのようなセンサ情報を収集し、またどのような動作を行うべきか、という動作モデルを自動的に学習することができる。以下、本実施形態に係る送信制御モデル構築フェーズの動作の流れについて詳細に説明する。図9は、本実施形態に係る送信制御モデル構築フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。
図9を参照すると、まず、状態・報酬処理部3210は、強化学習処理部3220に利用されるための状態を算出する。具体的には、状態・報酬処理部3210は、学習データごとに、学習データ収集フェーズにおける判別結果とセンサ端末20からのセンサ情報の送信有無を状態として決定する(S1201)。
続いて、状態・報酬処理部3210は、強化学習処理部3220に用いられる報酬を算出する(S1202)。例えば、学習モデル処理部3140において、M種類の状態、N個のセンサ端末20、d個の特徴ベクトルが得られている場合、ある複数のセンサ端末20の総計N個の組み合わせから得られた特徴ベクトルd×M個で判別モデルが構築され、各状態におけるそれぞれの特徴ベクトルに基づいた判別正解率を算出される。なお、上述したように、特徴ベクトルは明示的に定義されなくともよく、例えば、特徴を自動抽出することが可能なアルゴリズムが用いられてもよい。
また、観測対象10に係る同一の状態の判別においても、判別に用いられるセンサ端末20およびセンサ210の組み合わせによっては、判別精度が異なる場合がある。このため、本実施形態では、複数のセンサ端末20が存在する場合、当該複数のセンサ端末20から受信したセンサ情報を組み合わせて、観測対象10の状態と特徴ベクトルに係る判別モデルが構築されてよい。
図10は、本実施形態に係るセンサ端末20の組み合わせによる判別精度の差について説明するための図である。図10には、センサ端末20aおよび20bの組み合わせと、センサ端末20c〜20eの組み合わせによる状態S1〜SMの判別率R11〜R1MおよびR21〜R2Mがそれぞれ示されている。なお、図10においてハッチングが施されている判別率は、他方の組み合わせと比較して高い判別率を有することを示す。
ここで、図10の一例では、状態S1に係る判別に関し、センサ端末20c〜20eの組み合わせによる判別率R21よりも、センサ端末20aおよび20bの組み合わせによる判別率R11が高い値を有する場合が示されている。一方、状態S2に係る判別においては、センサ端末20aおよび20bの組み合わせによる判別率R12よりも、センサ端末20c〜20eの組み合わせによる判別率R22が高い値を有する場合が示されている。このように、判別率を最大化するセンサ端末20の組み合わせは各状態により異なることが想定される。
このため、本実施形態では、複数のセンサ端末20およびセンサ210の組み合わせを試行し、各組み合わせにおける判別率と、最も判別率が高くなるセンサ端末20およびセンサ210の組み合わせとが記憶されてよい。
この際、本実施形態に係る状態・報酬処理部3210は、下記の数式(2)に基づいて、報酬rを決定してよい。
Figure 0006888312
なお、上記の数式(2)におけるRは、あるセンサ端末20およびセンサ210に由来するパワースペクトルと他のセンサ端末20およびセンサ210に由来するパワースペクトルとの組み合わせにより得られる判別率を示している。また、上記の数式(2)におけるCは、センサ情報の送信に係るセンサ端末20の通信コストの総計を示している。すなわち、上記の数式(2)によれば、判別率Rが高いほど、また通信コストCが低いほど報酬rは高くなることがわかる。このため、同一の判別率Rであれば通信コストCが低い行動が選択されやすくなる。
なお、本実施形態に係る通信コストは、送信されるセンサ情報のデータ量またはセンサ情報の送信に係るセンサ端末20の消費電力のうち少なくともいずれかを含んでよい。上記のデータ量および消費電力は、例えば、センサ情報の種別、センサ210の個数、送信時間、帯域幅、電波強度などに基づいて算出され得る。
再び図9を参照して、送信制御モデル構築フェーズにおける情報処理装置30の動作の流れについて説明を続ける。ステップS1202において報酬が決定されると、強化学習処理部3220は、観測対象10の各状態において、状態と報酬とに基づく行動を繰り返すことで価値関数Qを求め、送信制御モデルを構築する(S1203)。
また、図11は、ステップS1203における強化学習の動作モデルを示す図である。ここで、図11に示される状態は、各センサ端末20やセンサ210に由来する判別結果や、他のセンサ端末20によるセンサ情報の送信有無などを含む。また、図11に示される行動は、センサ端末20およびセンサ210ごとに係るセンサ情報の送信有無、すなわちセンサ情報を送信するか否かを示す。また、図11における報酬は、上述したとおり、判別率および通信コストに基づいたものであってよい。この際、強化学習処理部3220は、価値関数Qの変化率などが十分に収束するまで繰り返し行動を行う。
なお、送信制御モデル構築フェーズにおける初期の段階においては、センサ端末20およびセンサ210をランダムに組み合わせて得られるセンサ情報の組み合わせを状態としてもよい。この際、強化学習処理部3220は、例えば、ε‐greedyなどの手法を用いることができる。すなわち、強化学習処理部3220による強化学習では、確率εでランダムに行動を選択し、確率1−εで価値関数Qが最大となる行動を選択してよい。このように、ランダムに行動する可能性を残すことで、推定する価値関数Qが局所解に陥ることを防止することができる。
ここで、本実施形態に係る価値関数Qについて詳細に説明する。図12は、時刻tにおける価値関数Qを表形式で示した一例である。図12に示すように、本実施形態では、各センサ端末20に由来する判別率やセンサ情報の送信状態に係る状態sと、送信・非送信に係る行動(それぞれaおよびa)に対する価値関数Qが求められる。この際、状態sの数は、各センサ端末20に由来する判別結果M種類と各センサ端末20による行動(送信または非送信)の組み合わせ2のN乗により、最大2Mの状態数となる。
また、構築された価値関数Qに基づく各センサ端末20の行動(送信または非送信)は、以下のとおり決定されてよい。例えば、ある状態Snにおいて、送信に係る価値関数Q(s,a)が非送信に係る価値関数(s,a)よりも大きい場合、エージェントは、センサ情報を送信する選択をし、非送信に係る価値関数(s,a)が送信に係る価値関数Q(s,a)よりも大きい場合には、エージェントは、センサ情報を非送信とする選択をしてよい。
また、例えば、0〜1までの一様な乱数を発生させ、当該乱数が(送信に係る価値関数)÷(送信・非送信に係る価値関数の和)の値未満であれば、エージェントは、センサ情報を送信し、上記の値以上であれば非送信としてもよい。
以上説明した手法によれば、観測対象10の各状態において、判別率が高く、かつ通信コストが低いセンサ端末20およびセンサ210の組み合わせによるセンサ情報の送信を行う可能性が高いモデルを構築することが可能となる。
また、図9のステップS1203において送信制御モデルが構築されると、モデル転送部3230は、上記の送信制御モデルをセンサ端末20に送信する(S1204)。
(状態判別フェーズ)
次に、本実施形態に係る状態判別フェーズについて説明する。図13は、本実施形態に係る状態判別フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。
図13を参照すると、まず、データ受信部3110は、複数のセンサ端末20から送信制御モデルに基づいて送信されるセンサ情報を受信する(S1301)。この際、センサ端末20は、都度自身のデータから抽出される特徴ベクトルから判別結果を求め、通信制御部230により他のセンサ端末20によるセンサ情報の送信有無を確認する。また、通信制御部230は、上記の情報を送信制御モデルに入力することで、状態と対応した行動(送信または非送信)を選択し、センサ情報の送信を制御する。
なお、この際、他のセンサ端末20に係るセンサ情報の送信状況については、他のセンサ端末20によるセンサ情報の送信有無をセンサ端末20が自身で直接受信してもよいし、情報処理装置30を介して受信してもよい。
次に、情報処理装置30の学習モデル処理部3140は、ステップS1301において受信した各センサ端末20のセンサ情報から得た特徴ベクトルに対し、センサ端末20の組み合わせに対応した判別モデルを用いて状態判別を行う(S1302)。
次に、判別結果出力部3180は、ステップS1302で取得された判別結果を出力し(S1303)、情報処理装置30はセンサ情報の受信待ち状態に復帰する。
<<2.5.第1の実施形態による効果>>
以上、本実施形態に係る第1の実施形態について説明した。上述したように、本実施形態に係る送信制御モデル構築部320は、センサ情報の通信コストと判別精度とに基づいて、センサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定する機能を有する。また、本実施形態に係る学習・判別処理部310は、送信制御モデル構築部により決定された送信要否に基づいて送信されるセンサ情報に基づいて、観測対象の状態を判別する機能を有する。
本実施形態に係る情報処理装置30が有する上記の特徴によれば、最適なセンサ端末20の配置が分からないユーザであっても、配置されたセンサ端末20の中から最適なセンサ端末20およびセンサ210の組み合わせを自動的に選択して利用することが可能となる。
また、本実施形態に係る情報処理装置30によれば、通信帯域やバッテリ容量などのリソースに制限がある環境であっても、センサ情報の送信に係る通信コストを抑制しつつ高精度な状態検知が可能となる。
また、本実施形態に係る情報処理装置30によれば、センサ端末20の通信コストを抑制することで、バッテリ寿命を延命し、システムを長期間稼働させることが可能となる。
また、本実施形態に係る情報処理装置30によれば、不必要なセンサ情報の送信を抑制することで、低帯域な無線通信であっても、サンプリング周波数が高いセンサ情報を転送することが可能となる。
<3.第2の実施形態>
<<3.1.第2の実施形態の概要>>
次に、本発明に係る第2の実施形態について説明する。本発明の第2の実施形態は、第1の実施形態と同様、センサ情報に基づいた観測対象10の状態判別において、判別精度および通信コストの最適化を目的としたものである。一方、本発明の第2の実施形態は、第1の実施形態とは異なり、強化学習における状態が明確に定義できない場合における価値関数の構築に着目したものである。
例えば、センサ端末20やセンサ210の数が膨大である場合、すべての組み合わせを網羅した学習モデルの構築が困難である場合も想定される。また、センサ情報の性質によっては、完全に同一の値が取得されることが稀なケースも想定される。このため、本実施形態に係る情報処理装置30は、強化学習にニューラルネットワークを用いることで、未知の組み合わせに係る価値関数を近似することを可能とする。より具体的には、本実施形態に係る送信制御モデル構築部は、センサ情報とセンサ情報を送信するセンサ端末20の情報とを前記ニューラルネットワークに入力することで、価値関数を近似してよい。
図14は、本実施形態に係る送信制御モデルの構築において価値関数の近似に用いられるニューラルネットワークのネットワーク構成例を示す図である。本実施形態に係るニューラルネットワークは、入力される状態に基づく演算を行い、強化学習の行動に対応した価値関数Qを出力する。ここで、本実施形態に係るニューラルネットワークには、例えば、非特許文献2で記載されるDeep Q−Network(DQN)が用いられてよい。DQNとは、畳み込みニューラルネットワーク(Convolutional Neural Netowork:CNN)と強化学習を組み合わせた深層強化学習の一種である。本実施形態に係るニューラルネットワークは、例えば、図14に示すように、入力層、畳み込みニューラルネットワーク層、全結合層、および出力層から構成されてよい。
ここで、入力層には、センサ情報から抽出される特徴ベクトルや各センサ端末20におけるセンサ情報の送信有無に係る情報が入力されてよい。また、畳み込みニューラルネットワーク層は、畳み込み層およびプーリング層などから構成されてよい。プーリング層では、例えば、最大プーリングなどの圧縮処理が行われる。また、本実施形態に係るニューラルネットワークでは、畳み込みニューラルネットワーク層により抽象化された情報が全結合層に入力され、最終的に出力層から価値関数Qが出力される。
以下、上記で説明したニューラルネットワークを用いた強化学習の流れについて詳細に説明する。なお、以下の説明においては、第1の実施形態との差異について中心に述べ、第1の実施形態と共通する構成、機能、および効果などについては説明を省略する。
<<3.2.情報処理装置30の動作>>
まず、本実施形態と第1の実施形態との差異について説明する。本発明の第1の実施形態では、送信制御モデル構築フェーズにおける強化学習の状態に各センサ端末20に由来する判別結果を用いた。すなわち、第1の実施形態における状態の種類は、観測対象10の状態の数に等しいといえる。
一方、本発明の第2の実施形態では、強化学習の状態として各センサ端末20から送信されるセンサ情報から抽出される特徴ベクトルを用いてよい。学習データ収集フェーズにおいて得られる特徴ベクトル、および当該特徴ベクトルの組み合わせは有限であるが、実際の送信制御を行う状態判別フェーズでは、未知の特徴ベクトルに係る組み合わせが状態として利用されることとなる。このため、第2の実施形態では、送信制御モデルをセンサ端末20の数だけニューラルネットワークを用いた強化学習により構築することで、上記に対応する。
図15は、本実施形態に係る学習データ収集フェーズにおける情報処理装置30の動作の流れを示すフローチャートである。
上述したように、本発明の第2の実施形態では、強化学習の状態として、各センサ端末20に由来する判別結果ではなく、センサ端末20から送信されるセンサ情報から抽出された特徴ベクトルが直接利用される。このため、第2の実施形態に係る学習データ収集フェーズでは、第1の実施形態の学習データ収集フェーズにおいて行われる判別モデルの構築が不要となる。
ここで、図15と図6を比較すると、第2の実施形態では、図6に記載されるステップS1106の処理が行われないことがわかる。なお、ステップS1106以外の処理については、第2の実施形態においても、第1の実施形態と同様の処理が行われてよい。すなわち、第2の実施形態に係るステップS2101〜S2105は、第1の実施形態に係るステップS1101〜S1105にそれぞれ対応する。
なお、第2の実施形態に係る送信制御モデル構築フェーズ、および状態判別フェーズにおける情報処理装置30の動作の流れについても、基本的には、第1の実施形態と同様であってよい。一方、本実施形態に係るニューラルネットワークを用いた強化学習では、例えば、あるセンサ端末20から送信されるセンサ情報から抽出されたスペクトログラムなどの特徴ベクトルと、他のセンサ端末20に係るセンサ情報の送信状況が入力されてよい。
例えば、センサ端末20の総数がN個である場合、本実施形態に係るニューラルネットワークには、学習対象となるセンサ端末を除いたN−1個の送信状況が入力されることとなる。この際、他のセンサ端末20に係るN−1個の送信状況としては、センサ情報がされている場合には1が、送信されていない場合には0が入力されてもよい。
また、稼働初期においては、各センサ端末20からランダムにセンサ情報が送信されてよい。本実施形態に係るニューラルネットワークによれば、上記の情報に基づく行動を行い、報酬を獲得することで価値関数Qを出力する送信制御モデルを構築することが可能となる。なお、送信制御モデル構築後の情報処理装置30およびセンサ端末20の動作については、第1の実施形態と同様であってよい。
以上説明したように、本実施形態に係る情報処理装置30によれば、強化学習における状態が数値データなどにより明確に定義されていない未知の状況であっても、ニューラルネットワークにより価値関数を近似することが可能となる。また、本実施形態に係る情報処理装置30によれば、深層強化学習を用いることで、より精度の高い価値関数を推定することが可能となる。
<4.ハードウェア構成例>
次に、本発明に係る情報処理装置30のハードウェア構成例について説明する。図16は、本発明に係る情報処理装置30のハードウェア構成例を示すブロック図である。図16を参照すると、情報処理装置30は、例えば、CPU871と、ROM872と、RAM873と、ホストバス874と、ブリッジ875と、外部バス876と、インターフェース877と、入力部878と、出力部879と、記憶部880と、ドライブ881と、接続ポート882と、通信部883と、を有する。なお、ここで示すハードウェア構成は一例であり、構成要素の一部が省略されてもよい。また、ここで示される構成要素以外の構成要素をさらに含んでもよい。
(CPU871)
CPU871は、例えば、演算処理装置又は制御装置として機能し、ROM872、RAM873、記憶部880、又はリムーバブル記録媒体901に記録された各種プログラムに基づいて各構成要素の動作全般又はその一部を制御する。
(ROM872、RAM873)
ROM872は、CPU871に読み込まれるプログラムや演算に用いるデータ等を格納する手段である。RAM873には、例えば、CPU871に読み込まれるプログラムや、そのプログラムを実行する際に適宜変化する各種パラメータ等が一時的又は永続的に格納される。
(ホストバス874、ブリッジ875、外部バス876、インターフェース877)
CPU871、ROM872、RAM873は、例えば、高速なデータ伝送が可能なホストバス874を介して相互に接続される。一方、ホストバス874は、例えば、ブリッジ875を介して比較的データ伝送速度が低速な外部バス876に接続される。また、外部バス876は、インターフェース877を介して種々の構成要素と接続される。
(入力部878)
入力部878には、例えば、マウス、キーボード、タッチパネル、ボタン、スイッチ、マイク、及びレバー等が用いられる。さらに、入力部878としては、赤外線やその他の電波を利用して制御信号を送信することが可能なリモートコントローラ(以下、リモコン)が用いられることもある。
(出力部879)
出力部879には、例えば、CRT(Cathode Ray Tube)、LCD、又は有機EL等のディスプレイ装置(表示装置)、スピーカ、ヘッドホン等のオーディオ出力装置、プリンタ、携帯電話、又はファクシミリ等、取得した情報を利用者に対して視覚的又は聴覚的に通知することが可能な装置である。
(記憶部880)
記憶部880は、各種のデータを格納するための装置である。記憶部880としては、例えば、ハードディスクドライブ(HDD)等の磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、又は光磁気記憶デバイス等が用いられる。
(ドライブ881)
ドライブ881は、例えば、磁気ディスク、光ディスク、光磁気ディスク、又は半導体メモリ等のリムーバブル記録媒体901に記録された情報を読み出し、又はリムーバブル記録媒体901に情報を書き込む装置である。
(リムーバブル記録媒体901)
リムーバブル記録媒体901は、例えば、DVDメディア、Blu−ray(登録商標)メディア、HD DVDメディア、各種の半導体記憶メディア等である。もちろん、リムーバブル記録媒体901は、例えば、非接触型ICチップを搭載したICカード、又は電子機器等であってもよい。
(接続ポート882)
接続ポート882は、例えば、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)、RS−232Cポート、又は光オーディオ端子等のような外部接続機器902を接続するためのポートである。
(外部接続機器902)
外部接続機器902は、例えば、プリンタ、携帯音楽プレーヤ、デジタルカメラ、デジタルビデオカメラ、又はICレコーダ等である。
(通信部883)
通信部883は、ネットワーク903に接続するための通信デバイスであり、例えば、有線又は無線LAN、Bluetooth(登録商標)、又はWUSB(Wireless USB)用の通信カード、光通信用のルータ、ADSL(Asymmetric Digital Subscriber Line)用のルータ、又は各種通信用のモデム等である。また、内線電話網や携帯電話事業者網等の電話網に接続してもよい。
<4.まとめ>
以上説明したように、本発明に係る情報処理装置30は、センサ端末20から送信されるセンサ情報の通信コストと当該センサ情報に基づく判別精度とに基づいて、センサ情報の送信要否をセンサ端末20およびセンサ210ごとに決定した送信制御モデルを構築することができる。また、本発明に係る情報処理装置30は、上記の送信制御モデルに基づいてセンサ端末20が送信するセンサ情報を用いて、観測対象10の状態を判別することができる。係る構成によれば、判別精度を維持しながらセンサ情報の通信コストを大きく低減することが可能となる。
以上、添付図面を参照しながら本発明の好適な実施形態について詳細に説明したが、本発明はかかる例に限定されない。本発明の属する技術の分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本発明の技術的範囲に属するものと了解される。
例えば、上記実施形態では、主に観測対象10が装置などである場合を例に説明したが、本発明に係る観測対象10は、環境であってもよい。例えば、情報処理装置30は、オフィスや部屋などの環境で得られたセンサ情報を用いて、当該環境でどのような活動が行われているかを判別することも可能である。上記の活動には、例えば、人の歩行や、会議の実施、キーボードへの入力作業などが想定される。
また、上記実施形態では、主に送信制御モデルの構築について詳細に述べたが、本発明では、データ通信や判別結果の視認性、知覚性向上についても種々の応用がなされてよい。例えば、センサ端末20や情報処理装置30にLEDなどの装置を搭載することで、センサ情報の送受信や判別結果などの情報をより直観的にユーザに提示することも可能である。
また、本発明の情報処理装置30の処理に係る各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、情報処理装置30の処理に係る各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。
10 観測対象
20 センサ端末
210 センサ
220 データ通信部
230 通信制御部
30 情報処理装置
310 学習・判別処理部
3110 データ受信部
3120 データ前処理部
3130 特徴ベクトル処理部
3140 学習モデル処理部
3150 状態正解値入力部
3160 学習データ記憶部
3170 判別率算出部
3180 判別結果出力部
320 送信制御モデル構築部
3210 状態・報酬処理部
3220 強化学習処理部
3230 モデル転送部

Claims (9)

  1. 複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別する判別部と、
    前記センサ情報の通信コストと前記判別部による判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定する送信制御モデル構築部と、
    を備え、
    前記判別部は、前記送信制御モデル構築部により決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別する、
    情報処理装置。
  2. 前記送信制御モデル構築部は、強化学習により得られる価値関数に基づいて、前記センサ情報の送信要否を前記センサ端末ごとに決定する、
    請求項1に記載の情報処理装置。
  3. 前記送信制御モデル構築部は、強化学習により得られる送信要否の価値関数の値に対応した確率に基づいて、前記センサ情報の送信要否を前記センサ端末ごとに決定する、
    請求項1または2に記載の情報処理装置。
  4. 前記送信制御モデル構築部は、ニューラルネットワークを用いて前記価値関数を近似する、
    請求項またはに記載の情報処理装置。
  5. 前記送信制御モデル構築部は、前記センサ情報と当該センサ情報を送信するセンサ端末の情報とを前記ニューラルネットワークに入力し、前記価値関数を近似する、
    請求項に記載の情報処理装置。
  6. 前記判別部は、複数の前記センサ端末ごとに受信する複数種別のセンサ情報に基づく学習結果を用いて前記観測対象の状態を判別し、
    前記送信制御モデル構築部は、前記センサ情報の送信要否を前記センサ端末およびセンサ種別ごとに決定する、
    請求項1〜のいずれかに記載の情報処理装置。
  7. 前記通信コストは、前記センサ端末から送信される前記センサ情報のデータ量、または前記センサ情報の送信に係る前記センサ端末の消費電力のうち、すくなくともいずれかを含む、
    請求項1〜のいずれかに記載の情報処理装置。
  8. 複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別することと、
    前記センサ情報の通信コストと前記観測対象の状態に係る判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定することと、
    を含み、
    前記判別することは、決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別すること、をさらに含む、
    情報処理方法。
  9. コンピュータを、
    複数のセンサ端末から受信するセンサ情報に基づく学習結果を用いて観測対象の状態を判別する判別部と、
    前記センサ情報の通信コストと前記判別部による判別精度とに基づいて、強化学習により前記センサ情報の送信要否を前記センサ端末ごとに決定する送信制御モデル構築部と、
    を備え、
    前記判別部は、前記送信制御モデル構築部により決定された前記送信要否に基づいて送信される前記センサ情報に基づいて、前記観測対象の状態を判別する、
    情報処理装置、
    として機能させるためのプログラム。
JP2017017413A 2017-02-02 2017-02-02 情報処理装置、情報処理方法、およびプログラム Active JP6888312B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017017413A JP6888312B2 (ja) 2017-02-02 2017-02-02 情報処理装置、情報処理方法、およびプログラム
CN201711361479.1A CN108388166A (zh) 2017-02-02 2017-12-18 信息处理装置、信息处理方法以及记录介质
US15/886,796 US20180218242A1 (en) 2017-02-02 2018-02-01 Information processing apparatus, information processing method, and computer-readable storage medium

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017017413A JP6888312B2 (ja) 2017-02-02 2017-02-02 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP2018124852A JP2018124852A (ja) 2018-08-09
JP6888312B2 true JP6888312B2 (ja) 2021-06-16

Family

ID=62980011

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017017413A Active JP6888312B2 (ja) 2017-02-02 2017-02-02 情報処理装置、情報処理方法、およびプログラム

Country Status (3)

Country Link
US (1) US20180218242A1 (ja)
JP (1) JP6888312B2 (ja)
CN (1) CN108388166A (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106887225B (zh) * 2017-03-21 2020-04-07 百度在线网络技术(北京)有限公司 基于卷积神经网络的声学特征提取方法、装置和终端设备
JP6481787B1 (ja) * 2018-02-14 2019-03-13 オムロン株式会社 デバイス選択装置、データセット選択装置、デバイス選択方法及びプログラム
US11265393B2 (en) * 2018-10-18 2022-03-01 EMC IP Holding Company LLC Applying a data valuation algorithm to sensor data for gateway assignment
JP7200694B2 (ja) * 2019-01-23 2023-01-10 日本電信電話株式会社 センサノード、サーバ装置、識別システム、方法及びプログラム
JP7210313B2 (ja) 2019-02-14 2023-01-23 株式会社日立製作所 通信制御装置及び通信制御方法並びに通信システム
JP7171520B2 (ja) * 2019-07-09 2022-11-15 株式会社日立製作所 機械学習システム
JP7040543B2 (ja) * 2020-02-05 2022-03-23 沖電気工業株式会社 データ圧縮装置、データ圧縮システム、学習モデル構築装置及びプログラム
JP7036143B2 (ja) * 2020-03-27 2022-03-15 沖電気工業株式会社 データ圧縮システム、データ圧縮端末、中継装置、学習モデル構築装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4177547B2 (ja) * 2000-11-27 2008-11-05 松下電工株式会社 環境制御システム
JP4651999B2 (ja) * 2004-09-02 2011-03-16 綜合警備保障株式会社 監視システム、監視方法
JP4648204B2 (ja) * 2006-01-18 2011-03-09 日本電信電話株式会社 センサ端末
US8781768B2 (en) * 2010-01-25 2014-07-15 International Business Machines Corporation Data reduction in a multi-node system
CN101799674B (zh) * 2010-03-28 2011-06-29 华中科技大学 一种数控装备服役状态分析方法
JP5939375B2 (ja) * 2011-12-08 2016-06-22 富士電機株式会社 センサネットワーク端末、システム及び無線通信方法
JP6020004B2 (ja) * 2012-09-27 2016-11-02 富士通株式会社 データ管理方法、情報処理装置およびプログラム
CN103118439B (zh) * 2013-01-18 2016-03-23 中国科学院上海微系统与信息技术研究所 基于传感网节点通用中间件的数据融合方法
JP6027503B2 (ja) * 2013-07-30 2016-11-16 日本電信電話株式会社 センサネットワークシステム
CN103476042A (zh) * 2013-09-03 2013-12-25 吉林大学 环境监测系统中的无线温度传感器优化部署方法
CN103974511B (zh) * 2014-04-25 2016-05-04 上海海洋大学 一种基于多传感器测量和数据融合的模糊逻辑光强调控方法
ES2729189T3 (es) * 2014-05-14 2019-10-30 Alcatel Lucent Agrupación de sensores y agregación de datos en redes de sensores inalámbricos
US20170082986A1 (en) * 2014-06-25 2017-03-23 Hitachi Systems, Ltd. Building management device, wide area management system, data acquiring method, and program
JP6447234B2 (ja) * 2015-02-26 2019-01-09 沖電気工業株式会社 端末監視装置、端末監視方法及びプログラム
JP6438124B2 (ja) * 2015-04-20 2018-12-12 株式会社日立製作所 運用管理システム及び運用管理方法
JP6791152B2 (ja) * 2015-09-29 2020-11-25 日本電気株式会社 推定装置、推定方法、及び、プログラム
JP6610281B2 (ja) * 2016-01-20 2019-11-27 富士通株式会社 情報処理装置、制御方法及び制御プログラム

Also Published As

Publication number Publication date
JP2018124852A (ja) 2018-08-09
US20180218242A1 (en) 2018-08-02
CN108388166A (zh) 2018-08-10

Similar Documents

Publication Publication Date Title
JP6888312B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP7041323B2 (ja) スマートプラグの動作のシステムおよび方法
US11503386B2 (en) Identifying device state changes using power data and network data
CN108304758B (zh) 人脸特征点跟踪方法及装置
KR102091126B1 (ko) IoT 데이터 분석을 위한 에지-클라우드 협업 시스템 및 이의 운용방법
WO2019020014A1 (zh) 解锁控制方法及相关产品
KR20140059697A (ko) 사용자 의도 파악 어플리케이션 서비스 방법 및 서버와 이를 이용한 사용자 의도 파악 어플리케이션 서비스 시스템
JP6593519B1 (ja) センサデータ圧縮システム、センサ端末、モデル構築装置、およびプログラム
US11271629B1 (en) Human activity and transition detection
WO2019015418A1 (zh) 解锁控制方法及相关产品
KR20200094732A (ko) 시계열 데이터를 분류하기 위한 방법 및 시스템
WO2019062369A1 (zh) 应用管理方法、装置、存储介质及电子设备
CN103927452B (zh) 一种远程健康监护系统、方法和装置
US20210375492A1 (en) Ai enabled sensor data acquisition
CN111104967A (zh) 图像识别网络训练方法、图像识别方法、装置及终端设备
CN103974112B (zh) 一种电视机控制方法及装置
JP2016076766A (ja) 情報処理装置および情報処理方法
KR20180135958A (ko) Wi-Fi 네트워크의 성능을 관리하기 위한 장치 및 관련 방법
CN110022235A (zh) 信息处理方法、终端和服务器
WO2019080900A1 (zh) 神经网络训练方法和装置、存储介质及电子装置
WO2016189905A1 (ja) 情報処理装置、情報処理方法及びプログラム
JP6452707B2 (ja) 生成された文法の複雑さを測定することによってデバイスの既存のネットワークのホリスティックな価値を定量化するための方法および装置
CN109474521A (zh) 链路聚合实现方法及相关产品
CN105049924A (zh) 对与主显示器在相同房间内的候选同伴显示设备的检测
CN107818142A (zh) 无线信号空间分布特征库更新方法、服务器及存储介质

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190327

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190328

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191115

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20201028

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201104

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201222

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210420

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210503

R150 Certificate of patent or registration of utility model

Ref document number: 6888312

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150