JP2018173944A

JP2018173944A - 情報処理装置および情報処理方法

Info

Publication number: JP2018173944A
Application number: JP2018032225A
Authority: JP
Inventors: ヤンキムミン; Min Young Kim; 宗太郎築澤; Sotaro Tsukizawa
Original assignee: Panasonic Intellectual Property Corp of America
Current assignee: Panasonic Intellectual Property Corp of America
Priority date: 2017-03-30
Filing date: 2018-02-26
Publication date: 2018-11-08
Also published as: WO2018180750A1; US20190340496A1

Abstract

【課題】ニューラルネットワークを用いてリスク状況を予測することができる情報処理装置等を提供する。【解決手段】ニューラルネットワーク１２１に、時系列データを構成する一のデータである第１データを入力する入力部１１と、ニューラルネットワーク１２１に第１データから第１時間後のデータを予測させた第１予測データと、時系列データを構成する第２データであって第１データから第１時間後の第２データとを比較する比較処理部１２と、比較処理部１２が比較した結果、第２データと第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部１３とを備える。【選択図】図１

Description

本開示は、情報処理装置および情報処理方法に関し、特にニューラルネットワークを用いた情報処理装置および情報処理方法に関する。

神経科学の分野において、脳は継続的に感覚刺激を予測しているといったプレディクティブ・コーディング（Predictive Coding）という概念がある。

近年、この概念に由来する人工のニューラル・ネットワークについての研究がなされている（例えば非特許文献１）。

非特許文献１では、DeepPredictive Coding Network（以下、Pred Netと称する）と名づけられた、教師なしで映像予測を学習することができる人工のニューラルネットワークが提案されている。非特許文献１によれば、学習済みのPred Netは、映像を構成する一つのフレームの画像を受け取ると、次に来るフレームの画像を予測して生成することができる。

W. Lotter, G. Kreiman, and D. Cox, "Deep predictive coding networks for video prediction and unsupervised learning," CoRR abs/1605.08104 (2016).

しかしながら、非特許文献１では、Pred Netが教師なしで学習でき、かつ、入力された画像から直接次のフレームの画像を予測できることを開示しているに過ぎない。つまり、Pred Netを、どのように応用するのかについては開示されていない。

ところで、Pred Netのようなニューラルネットワークは、現在のフレームなどの実際のデータから次のフレームなどの将来のデータを予測できることから、例えば自動運転および監視システムなどの様々な分野においてリスク状況の予測に適用できる可能性があると考えられる。

そこで、本開示は、上述の事情を鑑みてなされたもので、ニューラルネットワークを用いてリスク状況を予測することができる情報処理装置および情報処理方法を提供することを目的とする。

上記課題を解決するために、本開示の一形態に係る情報処理装置は、ニューラルネットワークに、時系列データを構成する一のデータである第１データを入力する入力部と、前記ニューラルネットワークに前記第１データから第１時間後のデータを予測させた第１予測データと、前記時系列データを構成する第２データであって前記第１データから前記第１時間後の第２データとを比較する比較処理部と、前記比較処理部が比較した結果、前記第２データと前記第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える。

なお、これらの全般的または具体的な態様は、システム、方法、集積回路、コンピュータプログラムまたはコンピュータで読み取り可能なＣＤ−ＲＯＭなどの記録媒体で実現されてもよく、システム、方法、集積回路、コンピュータプログラムおよび記録媒体の任意な組み合わせで実現されてもよい。

本開示の情報処理装置等によれば、ニューラルネットワークを用いてリスク状況を予測することができる。

実施の形態における情報処理装置の構成の一例を示すブロック図である。図１に示す比較処理部の詳細構成の一例を示すブロック図である。 Pred Netのネットワークモデルの構造と情報の流れとを示す図である。 Pred Netを構成する１層分のモジュール構造を示す図である。実施の形態におけるニューラルネットワークの予測結果の一例を示す図である。実施の形態におけるニューラルネットワークの予測結果の別の一例を示す図である。実施の形態における比較部の比較処理の一例を説明するための図である。実施の形態の比較処理部が比較処理結果として出力する誤差の一例を示す図である。実施の形態の比較処理部が比較処理結果として出力する誤差の一例を示す図である。実施の形態の比較処理部が比較処理結果として出力する誤差の一例を示す図である。実施の形態の比較処理部が比較処理結果として出力する誤差の一例を示す図である。実施の形態における情報処理装置の動作を説明するためのフローチャートである。

本開示の一形態に係る情報処理装置は、ニューラルネットワークに、時系列データを構成する一のデータである第１データを入力する入力部と、前記ニューラルネットワークに前記第１データから第１時間後のデータを予測させた第１予測データと、前記時系列データを構成する第２データであって前記第１データから前記第１時間後の第２データとを比較する比較処理部と、前記比較処理部が比較した結果、前記第２データと前記第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える。

これにより、ニューラルネットワークを用いてリスク状況を予測することができる。

ここで、例えば、前記時系列データは、映像データであり、前記第１データ、前記第１予測データおよび前記第２データは、画像データである。

また、例えば、前記比較処理部は、前記ニューラルネットワークに、前記第１予測データに加えて、前記第１データから第２時間後であって前記第１時間後からさらに前記第１時間後の第２時間後のデータを予測させた第２予測データと、前記時系列データを構成する第３データであって前記第１データから前記第２時間後の第３データとを比較し、前記出力部は、前記比較処理部が比較した結果、前記第２データと前記第１予測データとの誤差および前記第３データと前記第２予測データとの誤差の平均が閾値より大きい場合、前記情報を出力するとしてもよい。

ここで、例えば、前記ニューラルネットワークは、リカレントニューラルネットワークを含む。

また、例えば、前記ニューラルネットワークは、１以上の畳み込みＬＳＴＭ（Long-Short-Term-Memory）と、１以上の畳み込み層とを有し、前記１以上の畳み込みＬＳＴＭは、前記リカレントニューラルネットワークである。

また、例えば、前記ニューラルネットワークは、Pred Net（Deep Predictive Coding Network）であり、前記リカレントニューラルネットワークは、前記Pred Netを構成する畳み込みＬＳＴＭ（Long-Short-Term-Memory）である。

また、本開示の一形態に係る情報処理方法は、ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、前記ニューラルネットワークに、時系列データを構成する一のデータである第１データを入力する入力ステップと、前記ニューラルネットワークに前記第１データから第１時間後のデータを予測させた第１予測データと、前記時系列データを構成する第２データであって前記第１データから前記第１時間後の第２データとを比較する比較処理ステップと、前記比較処理ステップにおいて比較された結果、前記第２データと前記第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力ステップとを含む。

以下で説明する実施の形態は、いずれも本開示の一具体例を示すものである。以下の実施の形態で示される数値、形状、構成要素、ステップ、ステップの順序などは、一例であり、本開示を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また全ての実施の形態において、各々の内容を組み合わせることもできる。

（実施の形態）
以下では、図面を参照しながら、実施の形態における情報処理装置１０の情報処理方法等の説明を行う。

［情報処理装置１０の構成］
図１は、本実施の形態における情報処理装置１０の構成の一例を示すブロック図である。図２は、図１に示す比較処理部１２の詳細構成の一例を示すブロック図である。

情報処理装置１０は、ニューラルネットワークを用いたコンピュータ等で実現され、図１に示すように、入力部１１と比較処理部１２と出力部１３とで構成されている。情報処理装置１０は、入力されている映像から予期されない状況が発生したときに警告情報を出力する。比較処理部１２は図２に示すように、ニューラルネットワーク１２１と、比較部１２２とを備える。

＜入力部１１＞
入力部１１は、ニューラルネットワーク１２１に、時系列データを構成する一のデータである第１データを入力する。より具体的には、入力部１１は、まず時系列データを構成する第１データを比較処理部１２に入力し、続いて映像データを構成する第２データを比較処理部１２に入力する。ここで、時系列データは、時系列に連続したデータであって傾向のあるデータである。例えば、時系列データは、時系列に連続する画像により構成される映像であってもよいし、時系列に連続する二人の会話の内容であってもよいし、時系列に連続する所定の場所の音であってもよい。第２データは、第１データと時間的に連続し、第１データに続くデータである。より具体的には、第２データは、時系列データを構成し、第１データから第１時間後のデータである。また、第１時間は、時系列データを構成する連続する２つ以上のデータの時間間隔であり、例えば１秒以内の間隔である。

以下では、時系列データは映像データであり、第１データおよび第２データは画像データであるとして説明する。すなわち、本実施の形態では、入力部１１は、まず時系列データを構成する第１データを現在フレームとして比較処理部１２に入力し、続いて、映像データを構成する第２データを現在フレームとして比較処理部１２に入力する。

＜比較処理部１２＞
比較処理部１２は、ニューラルネットワーク１２１に第１データから第１時間後のデータを予測させた第１予測データと、時系列データを構成する第２データであって第１データから第１時間後の第２データとを比較する。より具体的には、比較処理部１２は、上述したが、図２に示すように、ニューラルネットワーク１２１と、比較部１２２とを備える。なお、本実施の形態では、第１データおよび第２データが画像データであるので、第１予測データも画像データとなる。

≪ニューラルネットワーク１２１≫
ニューラルネットワーク１２１は、入力された第１データから第１時間後のデータである第１予測データを予測する。以下、ニューラルネットワーク１２１は、リカレントニューラルネットワークを含むとして説明するが、これに限らない。時系列データを扱えるニューラルネットワークであればよい。具体的には、ニューラルネットワーク１２１は、リカレントニューラルネットワークを含む学習済みのニューラルネットワークであり、現在フレームが入力されると、現在フレームから第１時間後のフレームである予測フレームを予測する。なお、ニューラルネットワーク１２１は、教師なしで学習でき、正解ラベルが付与された訓練データを必要としないので、訓練データに用いるデータのサイズが制限されないという利点をもつ。

より詳細には、例えば、ニューラルネットワーク１２１は、１以上の畳み込み層と、１以上の畳み込みＬＳＴＭ（Long-Short-Term-Memory）とを有してもよい。この場合、１以上の畳み込みＬＳＴＭは、上述したリカレントニューラルネットワークに該当する。ここで、ＬＳＴＭは、長期の時系列データを学習することができるモデルであり、リカレントニューラルネットワークの一種である。畳み込みＬＳＴＭは、ＬＳＴＭの結合を全結合から畳み込みに変更したものである。換言すると、畳み込みＬＳＴＭは、重みと状態変数との内積を畳み込みに変更したＬＳＴＭである。

また、例えば、ニューラルネットワーク１２１は、上述した非特許文献１で開示されるPred Netであってもよい。この場合、Pred Netを構成する畳み込みＬＳＴＭは、上述したリカレントニューラルネットワークに該当する。以下では、本実施の形態のニューラルネットワーク１２１がPred Netであるとして説明する。

以下、Pred Netの構造等について簡単に説明する。

図３Ａは、Pred Netのネットワークモデルの構造と情報の流れとを示す図である。図３Ｂは、Pred Netを構成する１層分のモジュール構造を示す図である。

PredNetは、畳み込みとＬＳＴＭとが組み合わされて構成されている。より具体的には、Pred Netは、図３Ａに示すように、図３Ｂに示すモジュール構造がスタックされた階層構造からなる。Pred Netは、従来のディープニューラルネットワークとは異なり、すべての層で予測を行う。

図３Ｂに示すモジュール構造において、ｃｏｎｖは畳み込み層を示し、ｐｏｏｌはプーリング層を示し、ｃｏｎｖＬＳＴＭは畳み込みＬＳＴＭを示す。ｃｏｎｖＬＳＴＭは、予測を行うモジュールである。また、下段のＴａｒｇｅｔは、入力された画像の特徴量をＥｒｒｏｒに出力し、上段のＰｒｅｄｉｃｔｏｎは、ｃｏｎｖＬＳＴＭにより予測された画像の特徴量をＥｒｒｏｒに出力する。Ｅｒｒｏｒは、入力された画像の特徴量と予測された画像の特徴量との差を、ｃｏｎｖＬＳＴＭとモジュール外部とに出力する。例えば０層目のＥｒｒｏｒは、当該差を０層目のｃｏｎｖＬＳＴＭと１層目の下段のＴａｒｇｅｔとに出力する。換言すると、Ｅｒｒｏｒは、ｃｏｎｖＬＳＴＭが予測できなかった部分の特徴を次の層に伝播する。

図４は、本実施の形態におけるニューラルネットワーク１２１の予測結果の一例を示す図である。本実施の形態におけるニューラルネットワーク１２１は、上述したようにPred Netである。そして、図４に示すニューラルネットワーク１２１は、現在フレームとして、時系列に連続する実際の画像データである第１画像５０_ｔ、第１画像５０_ｔ＋１、・・・、第１画像５０_ｔ＋９が順に入力され、１つの予測画像データを順に予測する。図４に示す例では、本実施の形態におけるニューラルネットワーク１２１は、順に入力される実際の画像データから、順に予測画像データである第１予測画像６０_ｔ＋１、・・・、第１予測画像６０_ｔ＋９を予測する。ここで、例えば画像５０_ｔ＋１と予測画像６０_ｔ＋１とは同時刻（ｔ＋１）の画像データである。また、予測画像６０_ｔ＋１は、ニューラルネットワーク１２１が画像５０_ｔから予測した画像データである。

図４に示される画像の上下すなわち第１予測画像６０_ｔ+１、・・・、第１予測画像６０_ｔ+９と第１画像５０_ｔ+１、・・・、第１画像５０_ｔ+９とを比較すると、第１予測画像６０_ｔ+１、・・・、第１予測画像６０_ｔ+９はぼけているものの、両者には高い類似性があるのがわかる。また、第１予測画像６０_ｔ+１、・・・、第１予測画像６０_ｔ+９の間にも高い類似性があるのがわかる。

このように、ニューラルネットワーク１２１が予測する予測フレームは、予測フレームより時間的前に予測した予測フレームとも高い相関がある。つまり、ニューラルネットワーク１２１に入力される映像のシーンが大幅に変化しない場合、予測される将来のフレームは、入力された映像の現在フレームおよび将来のフレームから時間的に少し前の予測フレームと同様になる。これは、運転者が高速道路で運転する場合、運転者が毎秒期待する場面は、運転者が直前に経験した場面とあまり変わらないことであり、実際そうであることが多いからである。このため、ニューラルネットワーク１２１は、現在フレームおよび将来のフレームから時間的に少し前の予測フレームから、容易に精度よく将来のフレームを予測することができる。

なお、ニューラルネットワーク１２１は、入力された１つの第１データから１つの第２データを予測するとして説明したが、それに限らない。ニューラルネットワーク１２１は、入力された１つの第１データから時間的に連続する第１データ後の２つのデータを予測するとしてもよい。より具体的には、ニューラルネットワーク１２１は、入力された第１データから第１時間後のデータである第１予測データと、当該第１データから第２時間後であって第１時間後からさらに第１時間後の第２時間後のデータである第２予測データとを予測してもよい。さらに、ニューラルネットワーク１２１は、入力された１つの第１データから時間的に連続する第１データ後の３つ以上のデータを予測してもよい。この場合、時間的に後に予測するデータほどぼけたデータとなる。

図５は、本実施の形態におけるニューラルネットワーク１２１の予測結果の別の一例を示す図である。本実施の形態におけるニューラルネットワーク１２１は上述したようにPred Netである。そして、図５に示すニューラルネットワーク１２１は、実際の画像データである現在フレームとして、時系列に連続する第１画像Ｆ_ｔ−１、第１画像Ｆ_ｔ、第１画像Ｆ_ｔ+１、・・・、第１画像Ｆ_ｔ+ｋが順に入力され、３以上の予測画像データを順に予測する。図５に示す例では、ニューラルネットワーク１２１は、１つの実際の画像データから、それぞれ５つの予測画像データを含む第１予測画像Ｐ_５（ｔ）、第１予測画像Ｐ_５（ｔ+１）、・・・、第１予測画像Ｐ_５（ｔ+ｋ）、第１予測画像Ｐ_５（ｔ+ｋ+１）を予測する。

≪比較部１２２≫
比較部１２２は、ニューラルネットワーク１２１が出力した第１予測データと、時系列データを構成する第２データであって第１データから第１時間後の第２データとを比較する。例えば、比較部１２２は、第２データと第１予測データとの誤差を比較してもよいし、第２データと第１予測データとの誤差が閾値より大きいか否かを比較してもよい。

本実施の形態では、比較部１２２は、ニューラルネットワーク１２１が出力した予測フレームと、時系列データを構成する現在フレームである第２画像データであって予測フレームを予測させるために入力した現在フレームである第１画像データから第１時間後の第２画像データとを比較する。具体的には、比較部１２２は、第２画像データと予測フレームとの誤差を比較してもよいし、当該誤差が予め定めた閾値より大きいか否かを比較してもよい。

ここで、誤差が閾値より大きいか否かの意味について説明する。

上述したように、運転者が高速道路で運転する場合、運転者が毎秒期待する場面は、運転者が直前に経験した場面とあまり変わらないことであり、実際そうであると説明した。このような場合、誤差は閾値以下となる。一方で、運転者が高速道路で運転している場合に他人に起因する事故が発生したとき、運転者は事故が起こるとは想像もしていないことから、驚くことになる。このような場合、誤差は閾値より大きくなる。なぜなら、第２画像データには事故が起こったことを示されている一方で、予測画像データには事故が起こったことが示されていないので、その誤差は閾値より大きくなるからである。このように、近い将来のフレームは予測不可能であるものの、予測フレームと第２画像データとの誤差が閾値より大きい場合、直前の場面と大きく変わった場面として、予期されない状況である事故の発生の直前の兆候を示すことができることを意味する。比較部１２２は、時系列に連続して、予測フレームと第２画像データとを比較し、しかも映像の場合には時系列に連続する時間間隔は０.０３３秒以下（３０ｆｐｓ以上）である。このように、比較処理部１２は、誤差が閾値より大きいか否かにより事故の発生の直前の兆候を判断でき、事故の発生を予測することができる。

なお、上記では、ニューラルネットワーク１２１は入力された１つの第１データから１つの第２データを予測することを前提として説明したが、それに限らない。ニューラルネットワーク１２１が、入力された１つの第１データから時間的に連続する第１データ後の２つのデータを予測してもよい。この場合、比較部１２２は、ニューラルネットワーク１２１に、第１予測データに加えて、第１データから第２時間後であって第１時間後からさらに第１時間後の第２時間後のデータを予測させた第２予測データと、時系列データを構成する第３データであって第１データから第２時間後の第３データとを比較してもよい。より具体的には、比較部１２２は、第２データと第１予測データとの誤差および第３データと第２予測データとの誤差の平均を比較してもよいし、当該誤差の平均が閾値より大きい否かを比較してもよい。

以下、比較部１２２が行う比較処理について、図５に示したニューラルネットワーク１２１の予測結果を用いて具体的に説明する。

図６は、本実施の形態における比較部１２２の比較処理の一例を説明するための図である。図５と同様の要素には同一の符号を付しており、詳細な説明は省略する。

図６に示す例では、比較部１２２は、ニューラルネットワーク１２１により予測された予測画像Ｐ_５（ｔ）、・・・、予測画像Ｐ_５（ｔ＋ｋ）における最初の２つの第１予測画像Ｐ_２（ｔ）、・・・、第１予測画像Ｐ_２（ｔ＋ｋ）を用いて比較処理を行っている。

より具体的には、まず、比較部１２２は、第１予測画像Ｐ_２（ｔ）の最初の予測画像データと第２画像Ｆ_ｔとの誤差と、第１予測画像Ｐ_２（ｔ）の最後の予測画像データと第２画像Ｆ_ｔ＋１との誤差を算出する。そして、比較部１２２は、これらの誤差を平均する。次に、比較部１２２は、同様に、第１予測画像Ｐ_２（ｔ＋１）と第２画像Ｆ_ｔ＋１および第２画像Ｆ_ｔ＋２の誤差を算出する。そして、比較部１２２は、これらの誤差を平均する。なお、以降の比較処理も同様のため説明を省略する。

ここで、例えば、比較部１２２は、（式１）に示す式により誤差ＲＥｒｒを算出することで上記の比較処理を行う。なお、（式１）において、ｎは使用される予測フレームの数を表し、図６に示す例では、ｎ＝２となる。また、ＭＳＥは平均２乗誤差を表す。

比較部１２２が、（式１）に示す誤差ＲＥｒｒを算出することで比較処理を行い、算出した誤差ＲＥｒｒを出力するとする。この場合において、誤差と、予期されない状況であるリスク状況との相関関係について図７〜図１０を用いて説明する。

図７〜図１０は、本実施の形態の比較処理部１２が比較処理の結果として出力する誤差の一例を示す図である。図７〜図１０の縦軸には誤差を正規化した数値が示されており、この数値が大きいほど誤差が大きいことを示す。また、図７〜図１０に示される第２画像５１_ｔ、第２画像５１_ｔ＋１、第２画像５１_ｔ＋２、第２画像５１_ｔ＋３は、第２画像データの一例であり、事故が途中で起こっている映像を構成する時系列に連続するフレームからサンプリングされたフレームを示す。

図７には、第２画像５１_ｔと、第２画像５１_ｔよりも時間的に１つ前のフレームである第１画像から予測された予測画像との誤差ＲＥｒｒが示されている。同様に、図８には、第２画像５１_ｔ＋１と、第２画像５１_ｔ＋１よりも時間的に１つ前のフレームである第１画像から予測された予測画像との誤差ＲＥｒｒが示されている。図９には、第２画像５１_ｔ＋２と、第２画像５１_ｔ＋２よりも時間的に１つ前のフレームである第１画像から予測された予測画像との誤差ＲＥｒｒが示されている。図１０には、第２画像５１_ｔ＋３と、第２画像５１_ｔ＋３よりも時間的に１つ前のフレームである第１画像から予測された予測画像との誤差ＲＥｒｒが示されている。

図８の第２画像５１_ｔ＋１に示されるように、前方のトラックがコントロールを失い、左右に滑り始めたときに、図７に示す誤差RErrと比較して、誤差RErrが劇的に増加しているのがわかる。そして、図１０の第２画像５１_ｔ＋３において前方のトラックが路肩に乗り上げ、実際の事故が発生した後には誤差RErrがフラットになっているのがわかる。これらにより、実際の事故が発生する直前に誤差RErrが劇的に増加することがわかる。したがって、実際の事故が発生する直前の誤差RErrが増加し始める時期を、閾値より大きいか否かで判定することで、実際の事故が発生することを事故が発生する少し前に予測することが可能であることがわかる。

＜出力部１３＞
出力部１３は、比較処理部１２が比較した結果、第２データと第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する。なお、出力部１３は、警告情報として、光を発する、警告音などの音を出す、画像を表示する、警告灯など所定の物体を動かす、または、匂いなどによる五官の刺激を行ってもよく、警告を示す情報であればよい。

また、出力部１３は、比較処理部１２が（式１）で示される誤差の値を比較結果として出力する場合、第２データと第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力してもよい。

また、比較処理部１２が第２データと第１予測データとの誤差および第３データと第２予測データとの誤差の平均の値を比較結果として出力してもよい。この場合、出力部１３は、第２データと第１予測データとの誤差および第３データと第２予測データとの誤差の平均が閾値より大きいとき、警告を示す情報を出力してもよい。このように、予測データと実際のデータとの比較を複数の組で行うと、予期されない状況を精度よく予測できるので、警告を示す情報に対する頑健性が向上する。

このようにして、出力部１３は、入力部１１に入力された映像などの時系列データにおいて予期されない状況が発生したときに警告情報を出力することができる。

［情報処理装置１０の動作］
上述のように構成された情報処理装置１０の動作の一例について以下説明する。

図１１は、本実施の形態における情報処理装置１０動作を説明するためのフローチャートである。

まず、情報処理装置１０のコンピュータは、ニューラルネットワーク１２１に、時系列データを構成する一のデータである第１データを入力する（Ｓ１）。本実施の形態では、情報処理装置１０のコンピュータは、映像を構成する一のフレームである第１データを現在フレームとしてニューラルネットワーク１２１に入力する。ニューラルネットワーク１２１は、リカレントニューラルネットワークを含む。

次に、情報処理装置１０のコンピュータは、ニューラルネットワーク１２１に第１データから第１時間後のデータを予測させた第１予測データと、時系列データを構成する第２データであって第１データから第１時間後の第２データとを比較する（Ｓ２）。本実施の形態では、情報処理装置１０のコンピュータは、ニューラルネットワーク１２１であるPred Netに、当該現在フレームの時間的に１つ後のフレームを予測フレームとして予測させる。そして、情報処理装置１０のコンピュータは、当該現在フレームの時間的に１つ後の実際のフレームである第２フレームと、予測フレームとの誤差を比較する。

次に、情報処理装置１０のコンピュータは、比較結果として、第２データと第１予測データとの誤差が閾値より大きいか否かを判定する（Ｓ３）。本実施の形態では、情報処理装置１０のコンピュータは、第２フレームと予測フレームとの誤差が予め定められた閾値より大きいか否かを判定する。

ステップＳ３において、情報処理装置１０のコンピュータは、第２データと第１予測データとの誤差が閾値より大きい場合（Ｓ３でＹｅｓ）、警告を示す情報を出力する（Ｓ４）。なお、ステップＳ３において、情報処理装置１０のコンピュータは、算出された第２データと第１予測データとの誤差が閾値以下の場合（Ｓ３でＮｏ）、ステップＳ１に戻る。

本実施の形態では、情報処理装置１０のコンピュータは、第２フレームと予測フレームとの誤差が閾値より大きい場合には、事故の発生の直前であるなど、予期されない状況が発生する旨を示す警告を出力する。

［効果等］
以上のように、本実施の形態の情報処理装置等は、教師なしで学習させた、リカレントニューラルネットワークを含むニューラルネットワークを用いることで、時系列データを構成する一のデータである第１データから、将来のデータを予測することができる。将来のデータである予測データは、時間的に少し前のデータと類似性が高いという性質がある。このため、本実施の形態の情報処理装置等は、ニューラルネットワークに予測させた将来のデータと、予測させた時刻の実際のデータとを比較することで、予測されない状態が発生した時を判定することができる。このように、本実施の形態の情報処理装置等は、予測されない状態が発生した時を判定することで、リスク状況を予測することができる。

ここで、予測されない状態とは、時系列データが車載カメラでの自動車の前方を撮影データである場合には、直前の場面と異なる状態であって例えば事故が発生する直前の状態である。また、時系列データが監視カメラによる所定の空間または人の流れの撮影データである場合、直前の空間または人の流れと異なる状態であって所定の空間への侵入または人の流れが変わったなどの異常な活動が示す犯罪、事件等が発生する直前の状態である。このように、予測されない状態を判定することは、リスク状況の予測に該当する。

なお、時系列データが時系列に連続する二人の会話データである場合、予測されない状態とは第三者が会話に加わったなど直前の状態と異なる状態であってもよい。また、時系列データが時系列に連続する所定の場所の音データである場合、予測されない状態とは悲鳴、怒号、うなり声が発生した時など直前の状態と異なる状態であってもよい。

以上のように、本実施の形態の情報処理装置等によれば、ニューラルネットワークを用いてリスク状況を予測することができる。

そして、本実施の形態における情報処理装置は、例えば、先進運転支援システム（Advanced Driver Assistance System：ADAS）、自動運転または監視システムなどの分野におけるリスク状況の予測に適用し得る。

さらに、本実施の形態における情報処理装置を監視システムに適用する場合には、予測されない状態が発生した時に警備員に警告を出力できるので、異常な活動を検出するためにセキュリティカメラを継続的に監視する、人が行う退屈な作業を軽減することができる。

（他の実施態様の可能性）
本開示は、上記実施の形態に限定されるものではない。例えば、本明細書において記載した構成要素を任意に組み合わせて、また、構成要素のいくつかを除外して実現される別の実施の形態を本開示の実施の形態としてもよい。また、上記実施の形態に対して本開示の主旨、すなわち、請求の範囲に記載される文言が示す意味を逸脱しない範囲で当業者が思いつく各種変形を施して得られる変形例も本開示に含まれる。

また、本開示は、さらに、以下のような場合も含まれる。

（１）上記の装置は、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭ、ハードディスクユニット、ディスプレイユニット、キーボード、マウスなどから構成されるコンピュータシステムである。前記ＲＡＭまたはハードディスクユニットには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、各装置は、その機能を達成する。ここでコンピュータプログラムは、所定の機能を達成するために、コンピュータに対する指令を示す命令コードが複数個組み合わされて構成されたものである。

（２）上記の装置を構成する構成要素の一部または全部は、１個のシステムＬＳＩ（Large Scale Integration：大規模集積回路）から構成されているとしてもよい。システムＬＳＩは、複数の構成部を１個のチップ上に集積して製造された超多機能ＬＳＩであり、具体的には、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどを含んで構成されるコンピュータシステムである。前記ＲＡＭには、コンピュータプログラムが記憶されている。前記マイクロプロセッサが、前記コンピュータプログラムにしたがって動作することにより、システムＬＳＩは、その機能を達成する。

（３）上記の装置を構成する構成要素の一部または全部は、各装置に脱着可能なＩＣカードまたは単体のモジュールから構成されているとしてもよい。前記ＩＣカードまたは前記モジュールは、マイクロプロセッサ、ＲＯＭ、ＲＡＭなどから構成されるコンピュータシステムである。前記ＩＣカードまたは前記モジュールは、上記の超多機能ＬＳＩを含むとしてもよい。マイクロプロセッサが、コンピュータプログラムにしたがって動作することにより、前記ＩＣカードまたは前記モジュールは、その機能を達成する。このＩＣカードまたはこのモジュールは、耐タンパ性を有するとしてもよい。

（４）また、本開示は、上記に示す方法であるとしてもよい。また、これらの方法をコンピュータにより実現するコンピュータプログラムであるとしてもよいし、前記コンピュータプログラムからなるデジタル信号であるとしてもよい。

（５）また、本開示は、前記コンピュータプログラムまたは前記デジタル信号をコンピュータで読み取り可能な記録媒体、例えば、フレキシブルディスク、ハードディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ、ＤＶＤ−ＲＯＭ、ＤＶＤ−ＲＡＭ、ＢＤ（Blu-ray(登録商標) Disc)、半導体メモリなどに記録したものとしてもよい。また、これらの記録媒体に記録されている前記デジタル信号であるとしてもよい。

また、本開示は、前記コンピュータプログラムまたは前記デジタル信号を、電気通信回線、無線または有線通信回線、インターネットを代表とするネットワーク、データ放送等を経由して伝送するものとしてもよい。

また、本開示は、マイクロプロセッサとメモリを備えたコンピュータシステムであって、前記メモリは、上記コンピュータプログラムを記憶しており、前記マイクロプロセッサは、前記コンピュータプログラムにしたがって動作するとしてもよい。

また、前記プログラムまたは前記デジタル信号を前記記録媒体に記録して移送することにより、または前記プログラムまたは前記デジタル信号を、前記ネットワーク等を経由して移送することにより、独立した他のコンピュータシステムにより実施するとしてもよい。

本開示は、ニューラルネットワークを用いた情報処理装置および情報処理方法に利用でき、特にADAS、自動運転または監視システムなどの分野において、リスク状況を予測するための情報処理装置および情報処理方法に利用できる。

１０情報処理装置
１１入力部
１２比較処理部
１３出力部
５０_ｔ、５０_ｔ＋１、５０_ｔ＋９第１画像
５１_ｔ、５１_ｔ＋１、５１_ｔ＋２、５１_ｔ＋３第１画像
６０_ｔ、６０_ｔ＋１、６０_ｔ＋９第１予測画像
１２１ニューラルネットワーク
１２２比較部

Claims

ニューラルネットワークに、時系列データを構成する一のデータである第１データを入力する入力部と、
前記ニューラルネットワークに前記第１データから第１時間後のデータを予測させた第１予測データと、前記時系列データを構成する第２データであって前記第１データから前記第１時間後の第２データとを比較する比較処理部と、
前記比較処理部が比較した結果、前記第２データと前記第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力部とを備える、
情報処理装置。
前記時系列データは、映像データであり、
前記第１データ、前記第１予測データおよび前記第２データは、画像データである、
請求項１に記載の情報処理装置。
前記比較処理部は、前記ニューラルネットワークに、前記第１予測データに加えて、前記第１データから第２時間後であって前記第１時間後からさらに前記第１時間後の第２時間後のデータを予測させた第２予測データと、前記時系列データを構成する第３データであって前記第１データから前記第２時間後の第３データとを比較し、
前記出力部は、前記比較処理部が比較した結果、前記第２データと前記第１予測データとの誤差および前記第３データと前記第２予測データとの誤差の平均が閾値より大きい場合、前記情報を出力する、
請求項１または２に記載の情報処理装置。
前記ニューラルネットワークは、リカレントニューラルネットワークを含む、
請求項２または３に記載の情報処理装置。
前記ニューラルネットワークは、
１以上の畳み込みＬＳＴＭ（Long-Short-Term-Memory）と、
１以上の畳み込み層とを有し、
前記１以上の畳み込みＬＳＴＭは、前記リカレントニューラルネットワークである、
請求項４に記載の情報処理装置。
前記ニューラルネットワークは、Pred Net（Deep Predictive Coding Network）であり、
前記リカレントニューラルネットワークは、前記Pred Netを構成する畳み込みＬＳＴＭ（Long-Short-Term-Memory）である、
請求項４または５に記載の情報処理装置。
ニューラルネットワークを用いてコンピュータが行う情報処理方法であって、
前記ニューラルネットワークに、時系列データを構成する一のデータである第１データを入力する入力ステップと、
前記ニューラルネットワークに前記第１データから第１時間後のデータを予測させた第１予測データと、前記時系列データを構成する第２データであって前記第１データから前記第１時間後の第２データとを比較する比較処理ステップと、
前記比較処理ステップにおいて比較された結果、前記第２データと前記第１予測データとの誤差が閾値より大きい場合に、警告を示す情報を出力する出力ステップとを含む、
情報処理方法。