JP2018173944A - 情報処理装置および情報処理方法 - Google Patents
情報処理装置および情報処理方法 Download PDFInfo
- Publication number
- JP2018173944A JP2018173944A JP2018032225A JP2018032225A JP2018173944A JP 2018173944 A JP2018173944 A JP 2018173944A JP 2018032225 A JP2018032225 A JP 2018032225A JP 2018032225 A JP2018032225 A JP 2018032225A JP 2018173944 A JP2018173944 A JP 2018173944A
- Authority
- JP
- Japan
- Prior art keywords
- data
- neural network
- time
- prediction
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/088—Non-supervised learning, e.g. competitive learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Image Analysis (AREA)
Abstract
【課題】ニューラルネットワークを用いてリスク状況を予測することができる情報処理装置等を提供する。【解決手段】ニューラルネットワーク121に、時系列データを構成する一のデータである第1データを入力する入力部11と、ニューラルネットワーク121に第1データから第1時間後のデータを予測させた第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する比較処理部12と、比較処理部12が比較した結果、第2データと第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部13とを備える。【選択図】図1
Description
本開示は、情報処理装置および情報処理方法に関し、特にニューラルネットワークを用いた情報処理装置および情報処理方法に関する。
神経科学の分野において、脳は継続的に感覚刺激を予測しているといったプレディクティブ・コーディング(Predictive Coding)という概念がある。
近年、この概念に由来する人工のニューラル・ネットワークについての研究がなされている(例えば非特許文献1)。
非特許文献1では、DeepPredictive Coding Network(以下、Pred Netと称する)と名づけられた、教師なしで映像予測を学習することができる人工のニューラルネットワークが提案されている。非特許文献1によれば、学習済みのPred Netは、映像を構成する一つのフレームの画像を受け取ると、次に来るフレームの画像を予測して生成することができる。
W. Lotter, G. Kreiman, and D. Cox, "Deep predictive coding networks for video prediction and unsupervised learning," CoRR abs/1605.08104 (2016).
しかしながら、非特許文献1では、Pred Netが教師なしで学習でき、かつ、入力された画像から直接次のフレームの画像を予測できることを開示しているに過ぎない。つまり、Pred Netを、どのように応用するのかについては開示されていない。
ところで、Pred Netのようなニューラルネットワークは、現在のフレームなどの実際のデータから次のフレームなどの将来のデータを予測できることから、例えば自動運転および監視システムなどの様々な分野においてリスク状況の予測に適用できる可能性があると考えられる。
そこで、本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いてリスク状況を予測することができる情報処理装置および情報処理方法を提供することを目的とする。
上記課題を解決するために、本開示の一形態に係る情報処理装置は、ニューラルネットワークに、時系列データを構成する一のデータである第1データを入力する入力部と、前記ニューラルネットワークに前記第1データから第1時間後のデータを予測させた第1予測データと、前記時系列データを構成する第2データであって前記第1データから前記第1時間後の第2データとを比較する比較処理部と、前記比較処理部が比較した結果、前記第2データと前記第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える。
なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なCD−ROMなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。
本開示の情報処理装置等によれば、ニューラルネットワークを用いてリスク状況を予測することができる。
本開示の一形態に係る情報処理装置は、ニューラルネットワークに、時系列データを構成する一のデータである第1データを入力する入力部と、前記ニューラルネットワークに前記第1データから第1時間後のデータを予測させた第1予測データと、前記時系列データを構成する第2データであって前記第1データから前記第1時間後の第2データとを比較する比較処理部と、前記比較処理部が比較した結果、前記第2データと前記第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える。
これにより、ニューラルネットワークを用いてリスク状況を予測することができる。
ここで、例えば、前記時系列データは、映像データであり、前記第1データ、前記第1予測データおよび前記第2データは、画像データである。
また、例えば、前記比較処理部は、前記ニューラルネットワークに、前記第1予測データに加えて、前記第1データから第2時間後であって前記第1時間後からさらに前記第1時間後の第2時間後のデータを予測させた第2予測データと、前記時系列データを構成する第3データであって前記第1データから前記第2時間後の第3データとを比較し、前記出力部は、前記比較処理部が比較した結果、前記第2データと前記第1予測データとの誤差および前記第3データと前記第2予測データとの誤差の平均が閾値より大きい場合、前記情報を出力するとしてもよい。
ここで、例えば、前記ニューラルネットワークは、リカレントニューラルネットワークを含む。
また、例えば、前記ニューラルネットワークは、1以上の畳み込みLSTM(Long-Short-Term-Memory)と、1以上の畳み込み層とを有し、前記1以上の畳み込みLSTMは、前記リカレントニューラルネットワークである。
また、例えば、前記ニューラルネットワークは、Pred Net(Deep Predictive Coding Network)であり、前記リカレントニューラルネットワークは、前記Pred Netを構成する畳み込みLSTM(Long-Short-Term-Memory)である。
また、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、前記ニューラルネットワークに、時系列データを構成する一のデータである第1データを入力する入力ステップと、前記ニューラルネットワークに前記第1データから第1時間後のデータを予測させた第1予測データと、前記時系列データを構成する第2データであって前記第1データから前記第1時間後の第2データとを比較する比較処理ステップと、前記比較処理ステップにおいて比較された結果、前記第2データと前記第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力ステップとを含む。
以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。
(実施の形態)
以下では、図面を参照しながら、実施の形態における情報処理装置10の情報処理方法等の説明を行う。
以下では、図面を参照しながら、実施の形態における情報処理装置10の情報処理方法等の説明を行う。
[情報処理装置10の構成]
図1は、本実施の形態における情報処理装置10の構成の一例を示すブロック図である。図2は、図1に示す比較処理部12の詳細構成の一例を示すブロック図である。
図1は、本実施の形態における情報処理装置10の構成の一例を示すブロック図である。図2は、図1に示す比較処理部12の詳細構成の一例を示すブロック図である。
情報処理装置10は、ニューラルネットワークを用いたコンピュータ等で実現され、図1に示すように、入力部11と比較処理部12と出力部13とで構成されている。情報処理装置10は、入力されている映像から予期されない状況が発生したときに警告情報を出力する。比較処理部12は図2に示すように、ニューラルネットワーク121と、比較部122とを備える。
<入力部11>
入力部11は、ニューラルネットワーク121に、時系列データを構成する一のデータである第1データを入力する。より具体的には、入力部11は、まず時系列データを構成する第1データを比較処理部12に入力し、続いて映像データを構成する第2データを比較処理部12に入力する。ここで、時系列データは、時系列に連続したデータであって傾向のあるデータである。例えば、時系列データは、時系列に連続する画像により構成される映像であってもよいし、時系列に連続する二人の会話の内容であってもよいし、時系列に連続する所定の場所の音であってもよい。第2データは、第1データと時間的に連続し、第1データに続くデータである。より具体的には、第2データは、時系列データを構成し、第1データから第1時間後のデータである。また、第1時間は、時系列データを構成する連続する2つ以上のデータの時間間隔であり、例えば1秒以内の間隔である。
入力部11は、ニューラルネットワーク121に、時系列データを構成する一のデータである第1データを入力する。より具体的には、入力部11は、まず時系列データを構成する第1データを比較処理部12に入力し、続いて映像データを構成する第2データを比較処理部12に入力する。ここで、時系列データは、時系列に連続したデータであって傾向のあるデータである。例えば、時系列データは、時系列に連続する画像により構成される映像であってもよいし、時系列に連続する二人の会話の内容であってもよいし、時系列に連続する所定の場所の音であってもよい。第2データは、第1データと時間的に連続し、第1データに続くデータである。より具体的には、第2データは、時系列データを構成し、第1データから第1時間後のデータである。また、第1時間は、時系列データを構成する連続する2つ以上のデータの時間間隔であり、例えば1秒以内の間隔である。
以下では、時系列データは映像データであり、第1データおよび第2データは画像データであるとして説明する。すなわち、本実施の形態では、入力部11は、まず時系列データを構成する第1データを現在フレームとして比較処理部12に入力し、続いて、映像データを構成する第2データを現在フレームとして比較処理部12に入力する。
<比較処理部12>
比較処理部12は、ニューラルネットワーク121に第1データから第1時間後のデータを予測させた第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する。より具体的には、比較処理部12は、上述したが、図2に示すように、ニューラルネットワーク121と、比較部122とを備える。なお、本実施の形態では、第1データおよび第2データが画像データであるので、第1予測データも画像データとなる。
比較処理部12は、ニューラルネットワーク121に第1データから第1時間後のデータを予測させた第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する。より具体的には、比較処理部12は、上述したが、図2に示すように、ニューラルネットワーク121と、比較部122とを備える。なお、本実施の形態では、第1データおよび第2データが画像データであるので、第1予測データも画像データとなる。
≪ニューラルネットワーク121≫
ニューラルネットワーク121は、入力された第1データから第1時間後のデータである第1予測データを予測する。以下、ニューラルネットワーク121は、リカレントニューラルネットワークを含むとして説明するが、これに限らない。時系列データを扱えるニューラルネットワークであればよい。具体的には、ニューラルネットワーク121は、リカレントニューラルネットワークを含む学習済みのニューラルネットワークであり、現在フレームが入力されると、現在フレームから第1時間後のフレームである予測フレームを予測する。なお、ニューラルネットワーク121は、教師なしで学習でき、正解ラベルが付与された訓練データを必要としないので、訓練データに用いるデータのサイズが制限されないという利点をもつ。
ニューラルネットワーク121は、入力された第1データから第1時間後のデータである第1予測データを予測する。以下、ニューラルネットワーク121は、リカレントニューラルネットワークを含むとして説明するが、これに限らない。時系列データを扱えるニューラルネットワークであればよい。具体的には、ニューラルネットワーク121は、リカレントニューラルネットワークを含む学習済みのニューラルネットワークであり、現在フレームが入力されると、現在フレームから第1時間後のフレームである予測フレームを予測する。なお、ニューラルネットワーク121は、教師なしで学習でき、正解ラベルが付与された訓練データを必要としないので、訓練データに用いるデータのサイズが制限されないという利点をもつ。
より詳細には、例えば、ニューラルネットワーク121は、1以上の畳み込み層と、1以上の畳み込みLSTM(Long-Short-Term-Memory)とを有してもよい。この場合、1以上の畳み込みLSTMは、上述したリカレントニューラルネットワークに該当する。ここで、LSTMは、長期の時系列データを学習することができるモデルであり、リカレントニューラルネットワークの一種である。畳み込みLSTMは、LSTMの結合を全結合から畳み込みに変更したものである。換言すると、畳み込みLSTMは、重みと状態変数との内積を畳み込みに変更したLSTMである。
また、例えば、ニューラルネットワーク121は、上述した非特許文献1で開示されるPred Netであってもよい。この場合、Pred Netを構成する畳み込みLSTMは、上述したリカレントニューラルネットワークに該当する。以下では、本実施の形態のニューラルネットワーク121がPred Netであるとして説明する。
以下、Pred Netの構造等について簡単に説明する。
図3Aは、Pred Netのネットワークモデルの構造と情報の流れとを示す図である。図3Bは、Pred Netを構成する1層分のモジュール構造を示す図である。
PredNetは、畳み込みとLSTMとが組み合わされて構成されている。より具体的には、Pred Netは、図3Aに示すように、図3Bに示すモジュール構造がスタックされた階層構造からなる。Pred Netは、従来のディープニューラルネットワークとは異なり、すべての層で予測を行う。
図3Bに示すモジュール構造において、convは畳み込み層を示し、poolはプーリング層を示し、conv LSTMは畳み込みLSTMを示す。conv LSTMは、予測を行うモジュールである。また、下段のTargetは、入力された画像の特徴量をErrorに出力し、上段のPredictonは、conv LSTMにより予測された画像の特徴量をErrorに出力する。Errorは、入力された画像の特徴量と予測された画像の特徴量との差を、conv LSTMとモジュール外部とに出力する。例えば0層目のErrorは、当該差を0層目のconv LSTMと1層目の下段のTargetとに出力する。換言すると、Errorは、conv LSTMが予測できなかった部分の特徴を次の層に伝播する。
図4は、本実施の形態におけるニューラルネットワーク121の予測結果の一例を示す図である。本実施の形態におけるニューラルネットワーク121は、上述したようにPred Netである。そして、図4に示すニューラルネットワーク121は、現在フレームとして、時系列に連続する実際の画像データである第1画像50t、第1画像50t+1、・・・、第1画像50t+9が順に入力され、1つの予測画像データを順に予測する。図4に示す例では、本実施の形態におけるニューラルネットワーク121は、順に入力される実際の画像データから、順に予測画像データである第1予測画像60t+1、・・・、第1予測画像60t+9を予測する。ここで、例えば画像50t+1と予測画像60t+1とは同時刻(t+1)の画像データである。また、予測画像60t+1は、ニューラルネットワーク121が画像50tから予測した画像データである。
図4に示される画像の上下すなわち第1予測画像60t+1、・・・、第1予測画像60t+9と第1画像50t+1、・・・、第1画像50t+9とを比較すると、第1予測画像60t+1、・・・、第1予測画像60t+9はぼけているものの、両者には高い類似性があるのがわかる。また、第1予測画像60t+1、・・・、第1予測画像60t+9の間にも高い類似性があるのがわかる。
このように、ニューラルネットワーク121が予測する予測フレームは、予測フレームより時間的前に予測した予測フレームとも高い相関がある。つまり、ニューラルネットワーク121に入力される映像のシーンが大幅に変化しない場合、予測される将来のフレームは、入力された映像の現在フレームおよび将来のフレームから時間的に少し前の予測フレームと同様になる。これは、運転者が高速道路で運転する場合、運転者が毎秒期待する場面は、運転者が直前に経験した場面とあまり変わらないことであり、実際そうであることが多いからである。このため、ニューラルネットワーク121は、現在フレームおよび将来のフレームから時間的に少し前の予測フレームから、容易に精度よく将来のフレームを予測することができる。
なお、ニューラルネットワーク121は、入力された1つの第1データから1つの第2データを予測するとして説明したが、それに限らない。ニューラルネットワーク121は、入力された1つの第1データから時間的に連続する第1データ後の2つのデータを予測するとしてもよい。より具体的には、ニューラルネットワーク121は、入力された第1データから第1時間後のデータである第1予測データと、当該第1データから第2時間後であって第1時間後からさらに第1時間後の第2時間後のデータである第2予測データとを予測してもよい。さらに、ニューラルネットワーク121は、入力された1つの第1データから時間的に連続する第1データ後の3つ以上のデータを予測してもよい。この場合、時間的に後に予測するデータほどぼけたデータとなる。
図5は、本実施の形態におけるニューラルネットワーク121の予測結果の別の一例を示す図である。本実施の形態におけるニューラルネットワーク121は上述したようにPred Netである。そして、図5に示すニューラルネットワーク121は、実際の画像データである現在フレームとして、時系列に連続する第1画像Ft−1、第1画像Ft、第1画像Ft+1、・・・、第1画像Ft+kが順に入力され、3以上の予測画像データを順に予測する。図5に示す例では、ニューラルネットワーク121は、1つの実際の画像データから、それぞれ5つの予測画像データを含む第1予測画像P5(t)、第1予測画像P5(t+1)、・・・、第1予測画像P5(t+k)、第1予測画像P5(t+k+1)を予測する。
≪比較部122≫
比較部122は、ニューラルネットワーク121が出力した第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する。例えば、比較部122は、第2データと第1予測データとの誤差を比較してもよいし、第2データと第1予測データとの誤差が閾値より大きいか否かを比較してもよい。
比較部122は、ニューラルネットワーク121が出力した第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する。例えば、比較部122は、第2データと第1予測データとの誤差を比較してもよいし、第2データと第1予測データとの誤差が閾値より大きいか否かを比較してもよい。
本実施の形態では、比較部122は、ニューラルネットワーク121が出力した予測フレームと、時系列データを構成する現在フレームである第2画像データであって予測フレームを予測させるために入力した現在フレームである第1画像データから第1時間後の第2画像データとを比較する。具体的には、比較部122は、第2画像データと予測フレームとの誤差を比較してもよいし、当該誤差が予め定めた閾値より大きいか否かを比較してもよい。
ここで、誤差が閾値より大きいか否かの意味について説明する。
上述したように、運転者が高速道路で運転する場合、運転者が毎秒期待する場面は、運転者が直前に経験した場面とあまり変わらないことであり、実際そうであると説明した。このような場合、誤差は閾値以下となる。一方で、運転者が高速道路で運転している場合に他人に起因する事故が発生したとき、運転者は事故が起こるとは想像もしていないことから、驚くことになる。このような場合、誤差は閾値より大きくなる。なぜなら、第2画像データには事故が起こったことを示されている一方で、予測画像データには事故が起こったことが示されていないので、その誤差は閾値より大きくなるからである。このように、近い将来のフレームは予測不可能であるものの、予測フレームと第2画像データとの誤差が閾値より大きい場合、直前の場面と大きく変わった場面として、予期されない状況である事故の発生の直前の兆候を示すことができることを意味する。比較部122は、時系列に連続して、予測フレームと第2画像データとを比較し、しかも映像の場合には時系列に連続する時間間隔は0.033秒以下(30fps以上)である。このように、比較処理部12は、誤差が閾値より大きいか否かにより事故の発生の直前の兆候を判断でき、事故の発生を予測することができる。
なお、上記では、ニューラルネットワーク121は入力された1つの第1データから1つの第2データを予測することを前提として説明したが、それに限らない。ニューラルネットワーク121が、入力された1つの第1データから時間的に連続する第1データ後の2つのデータを予測してもよい。この場合、比較部122は、ニューラルネットワーク121に、第1予測データに加えて、第1データから第2時間後であって第1時間後からさらに第1時間後の第2時間後のデータを予測させた第2予測データと、時系列データを構成する第3データであって第1データから第2時間後の第3データとを比較してもよい。より具体的には、比較部122は、第2データと第1予測データとの誤差および第3データと第2予測データとの誤差の平均を比較してもよいし、当該誤差の平均が閾値より大きい否かを比較してもよい。
以下、比較部122が行う比較処理について、図5に示したニューラルネットワーク121の予測結果を用いて具体的に説明する。
図6は、本実施の形態における比較部122の比較処理の一例を説明するための図である。図5と同様の要素には同一の符号を付しており、詳細な説明は省略する。
図6に示す例では、比較部122は、ニューラルネットワーク121により予測された予測画像P5(t)、・・・、予測画像P5(t+k)における最初の2つの第1予測画像P2(t)、・・・、第1予測画像P2(t+k)を用いて比較処理を行っている。
より具体的には、まず、比較部122は、第1予測画像P2(t)の最初の予測画像データと第2画像Ftとの誤差と、第1予測画像P2(t)の最後の予測画像データと第2画像Ft+1との誤差を算出する。そして、比較部122は、これらの誤差を平均する。次に、比較部122は、同様に、第1予測画像P2(t+1)と第2画像Ft+1および第2画像Ft+2の誤差を算出する。そして、比較部122は、これらの誤差を平均する。なお、以降の比較処理も同様のため説明を省略する。
ここで、例えば、比較部122は、(式1)に示す式により誤差RErrを算出することで上記の比較処理を行う。なお、(式1)において、nは使用される予測フレームの数を表し、図6に示す例では、n=2となる。また、MSEは平均2乗誤差を表す。
比較部122が、(式1)に示す誤差RErrを算出することで比較処理を行い、算出した誤差RErrを出力するとする。この場合において、誤差と、予期されない状況であるリスク状況との相関関係について図7〜図10を用いて説明する。
図7〜図10は、本実施の形態の比較処理部12が比較処理の結果として出力する誤差の一例を示す図である。図7〜図10の縦軸には誤差を正規化した数値が示されており、この数値が大きいほど誤差が大きいことを示す。また、図7〜図10に示される第2画像51t、第2画像51t+1、第2画像51t+2、第2画像51t+3は、第2画像データの一例であり、事故が途中で起こっている映像を構成する時系列に連続するフレームからサンプリングされたフレームを示す。
図7には、第2画像51tと、第2画像51tよりも時間的に1つ前のフレームである第1画像から予測された予測画像との誤差RErrが示されている。同様に、図8には、第2画像51t+1と、第2画像51t+1よりも時間的に1つ前のフレームである第1画像から予測された予測画像との誤差RErrが示されている。図9には、第2画像51t+2と、第2画像51t+2よりも時間的に1つ前のフレームである第1画像から予測された予測画像との誤差RErrが示されている。図10には、第2画像51t+3と、第2画像51t+3よりも時間的に1つ前のフレームである第1画像から予測された予測画像との誤差RErrが示されている。
図8の第2画像51t+1に示されるように、前方のトラックがコントロールを失い、左右に滑り始めたときに、図7に示す誤差RErrと比較して、誤差RErrが劇的に増加しているのがわかる。そして、図10の第2画像51t+3において前方のトラックが路肩に乗り上げ、実際の事故が発生した後には誤差RErrがフラットになっているのがわかる。これらにより、実際の事故が発生する直前に誤差RErrが劇的に増加することがわかる。したがって、実際の事故が発生する直前の誤差RErrが増加し始める時期を、閾値より大きいか否かで判定することで、実際の事故が発生することを事故が発生する少し前に予測することが可能であることがわかる。
<出力部13>
出力部13は、比較処理部12が比較した結果、第2データと第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する。なお、出力部13は、警告情報として、光を発する、警告音などの音を出す、画像を表示する、警告灯など所定の物体を動かす、または、匂いなどによる五官の刺激を行ってもよく、警告を示す情報であればよい。
出力部13は、比較処理部12が比較した結果、第2データと第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する。なお、出力部13は、警告情報として、光を発する、警告音などの音を出す、画像を表示する、警告灯など所定の物体を動かす、または、匂いなどによる五官の刺激を行ってもよく、警告を示す情報であればよい。
また、出力部13は、比較処理部12が(式1)で示される誤差の値を比較結果として出力する場合、第2データと第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力してもよい。
また、比較処理部12が第2データと第1予測データとの誤差および第3データと第2予測データとの誤差の平均の値を比較結果として出力してもよい。この場合、出力部13は、第2データと第1予測データとの誤差および第3データと第2予測データとの誤差の平均が閾値より大きいとき、警告を示す情報を出力してもよい。このように、予測データと実際のデータとの比較を複数の組で行うと、予期されない状況を精度よく予測できるので、警告を示す情報に対する頑健性が向上する。
このようにして、出力部13は、入力部11に入力された映像などの時系列データにおいて予期されない状況が発生したときに警告情報を出力することができる。
[情報処理装置10の動作]
上述のように構成された情報処理装置10の動作の一例について以下説明する。
上述のように構成された情報処理装置10の動作の一例について以下説明する。
図11は、本実施の形態における情報処理装置10動作を説明するためのフローチャートである。
まず、情報処理装置10のコンピュータは、ニューラルネットワーク121に、時系列データを構成する一のデータである第1データを入力する(S1)。本実施の形態では、情報処理装置10のコンピュータは、映像を構成する一のフレームである第1データを現在フレームとしてニューラルネットワーク121に入力する。ニューラルネットワーク121は、リカレントニューラルネットワークを含む。
次に、情報処理装置10のコンピュータは、ニューラルネットワーク121に第1データから第1時間後のデータを予測させた第1予測データと、時系列データを構成する第2データであって第1データから第1時間後の第2データとを比較する(S2)。本実施の形態では、情報処理装置10のコンピュータは、ニューラルネットワーク121であるPred Netに、当該現在フレームの時間的に1つ後のフレームを予測フレームとして予測させる。そして、情報処理装置10のコンピュータは、当該現在フレームの時間的に1つ後の実際のフレームである第2フレームと、予測フレームとの誤差を比較する。
次に、情報処理装置10のコンピュータは、比較結果として、第2データと第1予測データとの誤差が閾値より大きいか否かを判定する(S3)。本実施の形態では、情報処理装置10のコンピュータは、第2フレームと予測フレームとの誤差が予め定められた閾値より大きいか否かを判定する。
ステップS3において、情報処理装置10のコンピュータは、第2データと第1予測データとの誤差が閾値より大きい場合(S3でYes)、警告を示す情報を出力する(S4)。なお、ステップS3において、情報処理装置10のコンピュータは、算出された第2データと第1予測データとの誤差が閾値以下の場合(S3でNo)、ステップS1に戻る。
本実施の形態では、情報処理装置10のコンピュータは、第2フレームと予測フレームとの誤差が閾値より大きい場合には、事故の発生の直前であるなど、予期されない状況が発生する旨を示す警告を出力する。
[効果等]
以上のように、本実施の形態の情報処理装置等は、教師なしで学習させた、リカレントニューラルネットワークを含むニューラルネットワークを用いることで、時系列データを構成する一のデータである第1データから、将来のデータを予測することができる。将来のデータである予測データは、時間的に少し前のデータと類似性が高いという性質がある。このため、本実施の形態の情報処理装置等は、ニューラルネットワークに予測させた将来のデータと、予測させた時刻の実際のデータとを比較することで、予測されない状態が発生した時を判定することができる。このように、本実施の形態の情報処理装置等は、予測されない状態が発生した時を判定することで、リスク状況を予測することができる。
以上のように、本実施の形態の情報処理装置等は、教師なしで学習させた、リカレントニューラルネットワークを含むニューラルネットワークを用いることで、時系列データを構成する一のデータである第1データから、将来のデータを予測することができる。将来のデータである予測データは、時間的に少し前のデータと類似性が高いという性質がある。このため、本実施の形態の情報処理装置等は、ニューラルネットワークに予測させた将来のデータと、予測させた時刻の実際のデータとを比較することで、予測されない状態が発生した時を判定することができる。このように、本実施の形態の情報処理装置等は、予測されない状態が発生した時を判定することで、リスク状況を予測することができる。
ここで、予測されない状態とは、時系列データが車載カメラでの自動車の前方を撮影データである場合には、直前の場面と異なる状態であって例えば事故が発生する直前の状態である。また、時系列データが監視カメラによる所定の空間または人の流れの撮影データである場合、直前の空間または人の流れと異なる状態であって所定の空間への侵入または人の流れが変わったなどの異常な活動が示す犯罪、事件等が発生する直前の状態である。このように、予測されない状態を判定することは、リスク状況の予測に該当する。
なお、時系列データが時系列に連続する二人の会話データである場合、予測されない状態とは第三者が会話に加わったなど直前の状態と異なる状態であってもよい。また、時系列データが時系列に連続する所定の場所の音データである場合、予測されない状態とは悲鳴、怒号、うなり声が発生した時など直前の状態と異なる状態であってもよい。
以上のように、本実施の形態の情報処理装置等によれば、ニューラルネットワークを用いてリスク状況を予測することができる。
そして、本実施の形態における情報処理装置は、例えば、先進運転支援システム(Advanced Driver Assistance System:ADAS)、自動運転または監視システムなどの分野におけるリスク状況の予測に適用し得る。
さらに、本実施の形態における情報処理装置を監視システムに適用する場合には、予測されない状態が発生した時に警備員に警告を出力できるので、異常な活動を検出するためにセキュリティカメラを継続的に監視する、人が行う退屈な作業を軽減することができる。
(他の実施態様の可能性)
本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。
また、本開示は、さらに、以下のような場合も含まれる。
(1)上記の装置は、具体的には、マイクロプロセッサ、ROM、RAM、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記RAMまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。
(2)上記の装置を構成する構成要素の一部または全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM、RAMなどを含んで構成されるコンピュータシステムである。前記RAMには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムLSIは、その機能を達成する。
(3)上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なICカードまたは単体のモジュールから構成されているとしてもよい。前記ICカードまたは前記モジュールは、マイクロプロセッサ、ROM、RAMなどから構成されるコンピュータシステムである。前記ICカードまたは前記モジュールは、上記の超多機能LSIを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ICカードまたは前記モジュールは、その機能を達成する。このICカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。
(4)また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。
(5)また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、CD−ROM、MO、DVD、DVD−ROM、DVD−RAM、BD(Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。
また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。
また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。
また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。
本開示は、ニューラルネットワークを用いた情報処理装置および情報処理方法に利用でき、特にADAS、自動運転または監視システムなどの分野において、リスク状況を予測するための情報処理装置および情報処理方法に利用できる。
10 情報処理装置
11 入力部
12 比較処理部
13 出力部
50t、50t+1、50t+9 第1画像
51t、51t+1、51t+2、51t+3 第1画像
60t、60t+1、60t+9 第1予測画像
121 ニューラルネットワーク
122 比較部
11 入力部
12 比較処理部
13 出力部
50t、50t+1、50t+9 第1画像
51t、51t+1、51t+2、51t+3 第1画像
60t、60t+1、60t+9 第1予測画像
121 ニューラルネットワーク
122 比較部
Claims (7)
- ニューラルネットワークに、時系列データを構成する一のデータである第1データを入力する入力部と、
前記ニューラルネットワークに前記第1データから第1時間後のデータを予測させた第1予測データと、前記時系列データを構成する第2データであって前記第1データから前記第1時間後の第2データとを比較する比較処理部と、
前記比較処理部が比較した結果、前記第2データと前記第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える、
情報処理装置。 - 前記時系列データは、映像データであり、
前記第1データ、前記第1予測データおよび前記第2データは、画像データである、
請求項1に記載の情報処理装置。 - 前記比較処理部は、前記ニューラルネットワークに、前記第1予測データに加えて、前記第1データから第2時間後であって前記第1時間後からさらに前記第1時間後の第2時間後のデータを予測させた第2予測データと、前記時系列データを構成する第3データであって前記第1データから前記第2時間後の第3データとを比較し、
前記出力部は、前記比較処理部が比較した結果、前記第2データと前記第1予測データとの誤差および前記第3データと前記第2予測データとの誤差の平均が閾値より大きい場合、前記情報を出力する、
請求項1または2に記載の情報処理装置。 - 前記ニューラルネットワークは、リカレントニューラルネットワークを含む、
請求項2または3に記載の情報処理装置。 - 前記ニューラルネットワークは、
1以上の畳み込みLSTM(Long-Short-Term-Memory)と、
1以上の畳み込み層とを有し、
前記1以上の畳み込みLSTMは、前記リカレントニューラルネットワークである、
請求項4に記載の情報処理装置。 - 前記ニューラルネットワークは、Pred Net(Deep Predictive Coding Network)であり、
前記リカレントニューラルネットワークは、前記Pred Netを構成する畳み込みLSTM(Long-Short-Term-Memory)である、
請求項4または5に記載の情報処理装置。 - ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、
前記ニューラルネットワークに、時系列データを構成する一のデータである第1データを入力する入力ステップと、
前記ニューラルネットワークに前記第1データから第1時間後のデータを予測させた第1予測データと、前記時系列データを構成する第2データであって前記第1データから前記第1時間後の第2データとを比較する比較処理ステップと、
前記比較処理ステップにおいて比較された結果、前記第2データと前記第1予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力ステップとを含む、
情報処理方法。
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201762478738P | 2017-03-30 | 2017-03-30 | |
US62/478,738 | 2017-03-30 |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2018173944A true JP2018173944A (ja) | 2018-11-08 |
Family
ID=63677359
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018032225A Pending JP2018173944A (ja) | 2017-03-30 | 2018-02-26 | 情報処理装置および情報処理方法 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20190340496A1 (ja) |
JP (1) | JP2018173944A (ja) |
WO (1) | WO2018180750A1 (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020170889A1 (ja) * | 2019-02-19 | 2020-08-27 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置、画像記録装置、および撮像方法 |
JP2020173160A (ja) * | 2019-04-10 | 2020-10-22 | 中部電力株式会社 | 津波高及び津波到達時間予測システム |
JP2020181404A (ja) * | 2019-04-25 | 2020-11-05 | 住友電気工業株式会社 | 画像分類器、画像分類方法及びコンピュータプログラム |
WO2021132566A1 (ja) * | 2019-12-26 | 2021-07-01 | パナソニックIpマネジメント株式会社 | 表示制御装置、表示システム、表示制御方法 |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
GB2575628A (en) * | 2018-07-09 | 2020-01-22 | Nokia Technologies Oy | Video processing |
US11172219B2 (en) | 2019-12-30 | 2021-11-09 | Texas Instruments Incorporated | Alternating frame processing operation with predicted frame comparisons for high safety level use |
KR102541685B1 (ko) * | 2020-04-13 | 2023-06-09 | 한국과학기술원 | 재귀 구조를 이용한 예측을 위한 전자 장치 및 그의 동작 방법 |
JP2024058015A (ja) * | 2022-10-13 | 2024-04-25 | パナソニックオートモーティブシステムズ株式会社 | 運転支援装置、運転支援システム、及び運転支援方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314530A (ja) * | 1995-05-23 | 1996-11-29 | Meidensha Corp | 故障予知装置 |
JP2016071697A (ja) * | 2014-09-30 | 2016-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 学習装置、処理装置、予測システム、学習方法、処理方法、およびプログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7751325B2 (en) * | 2003-08-14 | 2010-07-06 | At&T Intellectual Property Ii, L.P. | Method and apparatus for sketch-based detection of changes in network traffic |
DE602004028005D1 (de) * | 2004-07-27 | 2010-08-19 | Sony France Sa | Ein automatisiertes System zur Aktionsanwahl, sowie das Verfahren und dessen Anwendung, um Prognosemaschinen auszubilden und die Entwicklung sich selbst entwickelnder Geräte zu unterstützen |
-
2018
- 2018-02-26 JP JP2018032225A patent/JP2018173944A/ja active Pending
- 2018-03-20 WO PCT/JP2018/010954 patent/WO2018180750A1/ja active Application Filing
-
2019
- 2019-07-19 US US16/516,838 patent/US20190340496A1/en not_active Abandoned
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH08314530A (ja) * | 1995-05-23 | 1996-11-29 | Meidensha Corp | 故障予知装置 |
JP2016071697A (ja) * | 2014-09-30 | 2016-05-09 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | 学習装置、処理装置、予測システム、学習方法、処理方法、およびプログラム |
Non-Patent Citations (1)
Title |
---|
WILLIAM LOTTER 他: "DEEP PREDICTIVE CODING NETWORKS FOR VIDEO PREDICTION AND UNSUPERVISED LEARNING", ARXIV [オンライン], vol. v5, JPN6021035030, 1 March 2017 (2017-03-01), ISSN: 0004587560 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2020170889A1 (ja) * | 2019-02-19 | 2020-08-27 | ソニーセミコンダクタソリューションズ株式会社 | 撮像装置、画像記録装置、および撮像方法 |
US11917308B2 (en) | 2019-02-19 | 2024-02-27 | Sony Semiconductor Solutions Corporation | Imaging device, image recording device, and imaging method for capturing a predetermined event |
JP2020173160A (ja) * | 2019-04-10 | 2020-10-22 | 中部電力株式会社 | 津波高及び津波到達時間予測システム |
JP7265915B2 (ja) | 2019-04-10 | 2023-04-27 | 中部電力株式会社 | 津波高及び津波到達時間予測システム |
JP2020181404A (ja) * | 2019-04-25 | 2020-11-05 | 住友電気工業株式会社 | 画像分類器、画像分類方法及びコンピュータプログラム |
WO2021132566A1 (ja) * | 2019-12-26 | 2021-07-01 | パナソニックIpマネジメント株式会社 | 表示制御装置、表示システム、表示制御方法 |
DE112020006351T5 (de) | 2019-12-26 | 2022-10-20 | Panasonic Intellectual Property Management Co., Ltd. | Anzeigesteuervorrichtung, Anzeigesystem und Anzeigesteuerverfahren |
US11987122B2 (en) | 2019-12-26 | 2024-05-21 | Panasonic Automotive Systems Co., Ltd. | Display control device, display system, and display control method for controlling display of alert |
Also Published As
Publication number | Publication date |
---|---|
WO2018180750A1 (ja) | 2018-10-04 |
US20190340496A1 (en) | 2019-11-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2018180750A1 (ja) | 情報処理装置および情報処理方法 | |
CN110073369B (zh) | 时间差分模型的无监督学习技术 | |
CN108062562B (zh) | 一种物体重识别方法及装置 | |
JP7217138B2 (ja) | エンドツーエンド深層ニューラルネットワークを使用する危険ランク付け | |
US20190019037A1 (en) | Spatio-temporal interaction network for learning object interactions | |
US10410428B1 (en) | Providing technical support in an augmented reality environment | |
US10216983B2 (en) | Techniques for assessing group level cognitive states | |
CN108009477B (zh) | 图像的人流数量检测方法、装置、存储介质及电子设备 | |
EP2377044B1 (en) | Detecting anomalous events using a long-term memory in a video analysis system | |
KR20200052444A (ko) | 신경망을 이용하여 예측 결과를 출력하는 방법, 신경망을 생성하는 방법 및 그 장치들 | |
KR20210006971A (ko) | 지오로케이션 예측을 위한 시스템 및 방법 | |
CN107977638B (zh) | 视频监控报警方法、装置、计算机设备和存储介质 | |
WO2020226696A1 (en) | System and method of generating a video dataset with varying fatigue levels by transfer learning | |
US20180247194A1 (en) | Learning method, corresponding system, device and computer program product | |
KR102042168B1 (ko) | 시계열 적대적인 신경망 기반의 텍스트-비디오 생성 방법 및 장치 | |
US9606138B2 (en) | Motion recognition apparatus, motion recognition system, and motion recognition method | |
KR20210066697A (ko) | 비디오 프레임의 공간 정보와 동적 정보를 다층 bi-lstm을 통해 분석하여 인간 우울증 수준을 예측하는 장치 및 방법 | |
CN113869170B (zh) | 一种基于图划分卷积神经网络的行人轨迹预测方法 | |
Li et al. | Real-time driver drowsiness estimation by multi-source information fusion with Dempster–Shafer theory | |
CN115761371A (zh) | 医学影像分类方法、装置、存储介质及电子设备 | |
CN107025433B (zh) | 视频事件类人概念学习方法及装置 | |
KR102323671B1 (ko) | 동영상내의 이상 물체 탐지 방법 및 그 장치 | |
CN115908593A (zh) | 一种编码解码方法、装置及相关设备 | |
EP3401843A1 (en) | A method, an apparatus and a computer program product for modifying media content | |
US20240273902A1 (en) | Cut-paste training augmentation for machine learning models |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200903 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20210825 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210907 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20220405 |