JP6973575B1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
JP6973575B1
JP6973575B1 JP2020118696A JP2020118696A JP6973575B1 JP 6973575 B1 JP6973575 B1 JP 6973575B1 JP 2020118696 A JP2020118696 A JP 2020118696A JP 2020118696 A JP2020118696 A JP 2020118696A JP 6973575 B1 JP6973575 B1 JP 6973575B1
Authority
JP
Japan
Prior art keywords
matrix
event
evaluation index
cell
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020118696A
Other languages
English (en)
Other versions
JP2022015687A (ja
Inventor
淳子 中川
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Priority to JP2020118696A priority Critical patent/JP6973575B1/ja
Priority to PCT/JP2021/025040 priority patent/WO2022009787A1/ja
Application granted granted Critical
Publication of JP6973575B1 publication Critical patent/JP6973575B1/ja
Publication of JP2022015687A publication Critical patent/JP2022015687A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Physics & Mathematics (AREA)
  • Economics (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Game Theory and Decision Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

【課題】コンピュータによる事象の予測の根拠を説明可能とする。【解決手段】情報処理装置10は、事象の履歴データを基に、事象の発生し易さを計算する複数の計算手法別に特徴量集合を生成し、複数の計算手法別の特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける事象の発生件数を行列要素として有する第1行列を生成し、第1行列と同じラベルを有し、かつ、各行列要素に対応するラベル値の合計値を行列要素として有する第2行列を生成し、所定の閾値を基に第2行列において設定された境界に対応する位置に存在する境界行列要素を基に第1行列を複数の領域に分割した結果それぞれについて評価指標を生成し、事象の予測に用いる閾値組み合わせを各評価指標を基に特定し、ある予測時点での対象エリアの各セルの事象の予測結果を閾値組み合わせを基に分類し、その結果を含む情報を出力する。【選択図】図1

Description

本発明は、情報処理装置、情報処理方法、およびプログラムに関する。
犯罪や疾病などの事象について、過去の発生履歴に関するデータを用いて、ある時点での当該事象の発生を予測する技術がある。例えば、このような技術の一例が、下記特許文献1乃至3、非特許文献1乃至4に開示されている。
特許第6627842号公報 米国特許第9129219号明細書 米国特許出願公開第2015/0379413号明細書
Perry, W.L., Mclnnis, B., Price, C.C., Smith, S.C., Hollywood, J.S.: Predictive Policing: The Role of Crime Forecasting in Law Enforcement Operations, RAND Corporation (2013), available from < https://www.rand.org/content/dam/rand/pubs/research_reports/RR200/RR233/RAND_RR233.pdf> (accessed 2019-07-02). 雨宮護:潜在成長曲線を用いた地域レベルでの犯罪の時系列変化と地区環境との関連の分析,都市計画論文集, Vol.48, No.3, pp.351-356 (2013). 野貴泰,糸井川栄一:犯罪多発地点の予測に基づく防犯パトロール経路に関する提案,地域安全学会論文集, No.31, pp.195-204 (2017). Huang, C., Zhang, J., Zheng, Y., Chawla, N.V.,: DeepCrime: Attentive Hierarchical Recurrent Networks for Crime Prediction, Proc. CIKM'18, pp.1423-1432, ACM (2018).
上述の文献にあるような技術において、コンピュータによる予測がどのような判断基準でなされたか、すなわち、コンピュータによる予測の根拠(説明性)に対するニーズが高まっている。特許文献1に開示される技術において、事象を予測する場合の制約(例えば、人的リソースに基づく制約など)を考慮した予測を行うことができるが、この技術において、予測の根拠を説明する機能が備わっていない。
本発明は、上記の課題に鑑みてなされたものである。本発明の目的の一つは、ある時点での事象の発生をコンピュータで予測するとともに、当該コンピュータによる予測の根拠を説明可能とする技術を提供することである。
本発明の情報処理装置は、
過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成する手法別特徴量生成手段と、
前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成する第1行列生成手段と、
前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成する第2行列生成手段と、
所定の閾値に基づいて、前記第2行列において行列要素の境界を設定する境界設定手段と、
前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成する評価指標生成手段と、
前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定する閾値組み合わせ特定手段と、
前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する予測結果出力手段と、
を備える。
本発明の情報処理方法は、
コンピュータが、
過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成し、
前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成し、
前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成し、
所定の閾値に基づいて、前記第2行列において行列要素の境界を設定し、
前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成し、
前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定し、
前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する、
ことを含む。
本発明のプログラムは、コンピュータに、上述の情報処理方法を実行させる。
本発明によれば、ある時点での事象の発生をコンピュータで予測するとともに、当該コンピュータによる予測の根拠を説明可能とする技術が提供される。
第1実施形態における情報処理装置の機能構成を例示する図である。 情報処理装置のハードウエア構成を例示するブロック図である。 第1実施形態における情報処理装置の処理の流れを例示するフローチャートである。 第1実施形態における情報処理装置の処理の流れを例示するフローチャートである。 事象の発生履歴データの一例を示す図である。 第1の履歴データおよび第2の履歴データの一例を示す図である。 第1行列生成部により生成される第1行列の一例を示す図である。 第2行列生成部により生成される第2行列の一例を示す図である。 第2行列において設定される境界の一例を示す図である。 評価指標生成部により生成された境界を基に決定される、第1行列における境界行列要素を例示する図である。 評価指標生成部による第1行列の分割結果の一例を示す図である。 評価指標生成部による第1行列の分割結果の他の一例を示す図である。 評価指標生成部が生成する評価情報の一例を示す情報である。 予測結果出力部が出力する情報の一例を示す図である。 予測結果出力部が出力する情報の他の一例を示す図である。 予測結果出力部が出力する情報の他の一例を示す図である。 予測結果出力部が出力する情報の他の一例を示す図である。 第2実施形態における情報処理装置の機能構成例を示す図である。 評価指標可視化部が表示する評価指標の可視化情報の一例を示す図である。 第3実施形態における情報処理装置の機能構成例を示す図である。 予測ルール出力部により出力される情報の一例を示す図である。
以下、本発明の実施形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、各ブロック図において、各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。また、図中の矢印の向きは、情報の流れを分かり易くするためのものであり、特に説明のない限り通信の方向(一方向通信/双方向通信)を限定しない。
[第1実施形態]
図1は、第1実施形態における情報処理装置10の機能構成を例示する図である。図1に示されるように、本実施形態の情報処理装置10は、手法別特徴量生成部110、第1行列生成部120、第2行列生成部130、境界設定部140、評価指標生成部150、および閾値組み合わせ特定部160、予測結果出力部170を備える。
手法別特徴量生成部110は、過去に発生したある事象の履歴データのうち、任意の時点を基準とする第1の期間に含まれる第1の履歴データを用いて、ある対象エリアの各セルにおける事象の発生し易さを計算する。ここで、手法別特徴量生成部110は、当該事象の発生し易さを計算するための複数の計算手法を使って、対象エリアの各セルにおける事象の発生し易さを計算手法別に生成する。また、手法別特徴量生成部110は、計算手法別に計算された各セルにおける事象の発生し易さと、上述の第1の期間よりも後の第2の期間に含まれる第2履歴データとに基づいて、特徴量集合を計算手法別に生成する。手法別特徴量生成部110の具体的な動作例については、後述する。
ここで、本明細書における「事象」は、事件、事故または疾病といった避けるべきリスクに関する事象のみならず、喜ばしい事象を含み得る。なお、以下においては、リスクに関する事象(主に事件)を扱うケースを例示する。
第1行列生成部120は、以下のような処理を実行して、第1行列を生成する。まず、第1行列生成部120は、計算手法別に生成された特徴量集合に基づいて、第1行列の各次元のラベルを設定する。例えば、手法別特徴量生成部110により2つの計算手法(第1の計算手法、第2の計算手法)のそれぞれについて特徴量集合が生成された場合、第1行列生成部120は、第1の計算手法について生成された第1の特徴量集合を第1の次元(例えば、縦軸)のラベルとして設定し、第2の計算手法について生成された第2の特徴量集合を第2の次元(例えば、横軸)のラベルとして設定する。そして、第1行列生成部120は、各行列要素に対応するセルにおける事象の発生件数を第2の履歴データを基に計算し、第1行列の各行列要素の値として入力することによって、第1行列を生成する。第1行列生成部120の具体的な動作例については、後述する。
第2行列生成部130は、以下のような処理を実行して、第2行列を生成する。まず、第2行列生成部130は、第1行列と同じラベルを、第2行列のラベルとして設定する。つまり、第1行列および第2行列について、行要素の数および列要素の数は同一となる。第2行列生成部130は、第2行列の各行列要素の値として、その行列要素に対応する各次元のラベル値の合計値を入力することによって、第2行列を生成する。第2行列生成部130の具体的な動作例については後述する。
境界設定部140は、所定の閾値に基づいて、第2行列において行列要素の境界を設定する。境界設定部140の具体的な動作例については、後述する。
評価指標生成部150は、境界設定部140により設定された境界に対応する位置に存在する第1行列の行列要素(以下、「境界行列要素」とも表記)のそれぞれについて、当該境界行列要素を基準として第1行列を複数の領域に分割する。そして、評価指標生成部150は、個々の境界行列要素を基準としたそれぞれのケースにおいて、分割した複数の領域の少なくとも1つの領域に含まれる行列要素の和を用いて評価指標を生成する。評価指標生成部150の具体的な動作例については、後述する。
閾値組み合わせ特定部160は、評価指標生成部150がそれぞれのケースについて生成した評価指標に基づいて、評価が最大となる境界行列要素を特定する。そして、評価指標生成部150は、特定した境界行列要素に対応する各次元のラベル値の組み合わせを、事象の予測処理に用いる閾値組み合わせとして特定する。閾値組み合わせ特定部160の具体的な動作例については、後述する。
予測結果出力部170は、所定の予測時点における対象エリアの各セルの事象の発生し易さを、複数の計算手法を用いて予測する。そして、予測結果出力部170は、対象エリアの各セルの事象の発生し易さに関する予測結果を、閾値組み合わせ特定部160により特定された閾値組み合わせに基づいて分類する。ここで、対象エリアの各セルについて、複数の計算手法それぞれの計算結果が対応付けられる。そして、予測結果出力部170は、複数の計算手法それぞれの計算結果を、閾値組み合わせと照らし合わせることによって、各セルの予測結果を分類することができる。そして、予測結果出力部170は、対象エリアの各セルの分類結果を含む情報を、例えば表示装置などに出力する。予測結果出力部170の具体的な動作例については、後述する。
<ハードウエア構成例>
情報処理装置10の各機能構成部は、各機能構成部を実現するハードウエア(例:ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(例:電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、情報処理装置10が、ハードウエアとソフトウエアとの組み合わせで各機能構成部を実現する場合について、図2を用いてさらに説明する。図2は、情報処理装置10のハードウエア構成を例示するブロック図である。
情報処理装置10は、バス1010、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060を有する。
バス1010は、プロセッサ1020、メモリ1030、ストレージデバイス1040、入出力インタフェース1050、及びネットワークインタフェース1060が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ1020などを互いに接続する方法は、バス接続に限定されない。
プロセッサ1020は、CPU(Central Processing Unit) やGPU(Graphics Processing Unit)などで実現されるプロセッサである。
メモリ1030は、RAM(Random Access Memory)などで実現される主記憶装置である。
ストレージデバイス1040は、HDD(Hard Disk Drive)、SSD(Solid State Drive)、メモリカード、又はROM(Read Only Memory)などで実現される補助記憶装置である。ストレージデバイス1040は情報処理装置10の各機能(手法別特徴量生成部110、120、第2行列生成部130、境界設定部140、評価指標生成部150、閾値組み合わせ特定部160、予測結果出力部170など)を実現するプログラムモジュールを記憶している。プロセッサ1020がこれら各プログラムモジュールをメモリ1030上に読み込んで実行することで、各プログラムモジュールに対応する各機能が実現される。
入出力インタフェース1050は、情報処理装置10と各種入出力デバイスとを接続するためのインタフェースである。入出力インタフェース1050には、キーボードやマウスといった入力装置(図示せず)、ディスプレイやスピーカーといった出力装置(図示せず)などが接続され得る。
ネットワークインタフェース1060は、情報処理装置10をネットワークに接続するためのインタフェースである。このネットワークは、例えばLAN(Local Area Network)やWAN(Wide Area Network)である。ネットワークインタフェース1060がネットワークに接続する方法は、無線接続であってもよいし、有線接続であってもよい。
なお、情報処理装置10のハードウエア構成は図2に例示される構成に限定されない。
<処理の流れ>
図3および図4は、第1実施形態における情報処理装置10の処理の流れを例示するフローチャートである。図3では、事象の発生予測を行うにあたり前もって実行される準備フェーズの処理が示される。また、図4は準備フェーズの処理結果に基づく予測フェーズの処理が示される。
<<準備フェーズの処理>>
まず、手法別特徴量生成部110は、分析(予測)の対象エリアに関する情報、および、分析(予測)に利用する事象の履歴データを取得する(S102)。対象エリアに関する情報は、例えば、オペレータの入力操作(住所の入力・指定操作や地図上でのエリア指定操作など)によって生成される。また、履歴データは、例えば、図5に示すような形式で、所定の記憶領域(例えば、ストレージデバイス1040など)に記憶されている。図5は、事象の発生履歴データの一例を示す図である。図5に示すように、発生履歴データは、少なくとも、事象の発生時刻を示す情報(発生年月日時刻)と当該事象の発生位置を示す情報(発生位置)とを含む。発生履歴データは、事象の種類や当該事象に関連する人物の属性といった情報を含んでいてもよい。そして、手法別特徴量生成部110は、分析(予測)すべき事象の種類(例えば、犯罪の種類など)ごとの履歴データを取得することができる。例えば、分析(予測)すべき事象の種類をオペレータが入力装置を介して入力し、手法別特徴量生成部110は、その入力に従って読み込むべき履歴データを選択するように構成されていてもよい。
そして、手法別特徴量生成部110は、分析の対象となるエリア(対象エリア)を複数の小領域(以下、「セル」と表記)に分割する(S104)。手法別特徴量生成部110は、複数のセルの大きさや形状を任意に決定することができる。例えば、手法別特徴量生成部110は、予め記憶されているパラメータに従って各セルの大きさや形状を決定してもよいし、オペレータが入力装置を用いて入力内容に従って各セルの大きさや形状を決定してもよい。また、複数のセルそれぞれの大きさや形状は、均一であっても異なっていてもよい。一例として、同一サイズの矩形のセルによって対象エリアが分割されてもよい。他の一例として、住所の区分(都道府県、区市町村、町丁目など)といった不均一なサイズおよび形状のセルによって対象エリアが分割されてもよい。他の一例として、住所と市街化地域の対応データがあれば、当該対応データを参照して、市街化地域とそれ以外の地域に対象エリアが分割されてもよい。また、例えば対象エリアが複数の都道府県を含む場合に、市街化地域が占める面積割合の指定入力を受け付け、市街化地域の面積割合が指定された割合以上の都道府県と、それ以外の都道府県とに対象エリアが分割されてもよい。なお、対象エリアが既に複数のセルに分割されている場合(対象エリアに関するセルの情報が既に与えられている場合)、手法別特徴量生成部110は、S104の処理を実行しなくてもよい。
対象エリアが複数のセルに分割された後、手法別特徴量生成部110は、事象の発生し易さを計算する複数の計算手法それぞれについて、ある時点を基準とする第1の期間に含まれる事象の履歴データ(第1の履歴データ)を基に各セルの事象の発生し易さを計算する(S106)。なお、手法別特徴量生成部110は、第1の期間に含まれる履歴データの全てを第1の履歴データとして用いて各セルの事象の発生し易さを計算してもよいし、第1の期間に含まれる履歴データの一部を第1の履歴データとして用いて各セルの事象の発生し易さを計算してもよい。ここで、手法別特徴量生成部110は、既知の計算手法の中から任意の複数の計算手法を選択して利用することができる。既知の計算手法の例としては、特に限定されないが、例えば、上述の特許文献1に開示されるカーネル密度推定による分布計算手法および時空間K関数による分布計算手法や、上述の非特許文献1に開示されるグリッドマッピングによる分布計算手法、上述の非特許文献2乃至4に開示されるリスク値に関係する環境要因を用いた計算手法などがある。その他にも、ベテラン担当者の経験に基づく各セルのリスクの発生し易さや対象エリアの各セルのパトロールのし易さといった、人的知見による手法も既知の計算手法に含まれる。
また、手法別特徴量生成部110は、事象の履歴データと他のデータとを組み合わせて、各セルの事象の発生し易さを計算する手法を選択してもよい。例えば、手法別特徴量生成部110は、リスク値に関係する様々な環境要因を用いて、各セルの事象の発生し易さを計算する手法を選択するように構成され得る。第1の具体例として、手法別特徴量生成部110は、第1の履歴データ(計算に使用する履歴データ)が示す事象の発生時刻および発生位置を用いて特定できる天候データに基づいて、各セルの事象の発生し易さを計算する計算手法を選択するように構成され得る。第2の具体例として、手法別特徴量生成部110は、第1の履歴データ(計算に使用する履歴データ)が示す事象の発生位置を用いて特定できるエリアの人口密度に基づいて、各セルの事象の発生し易さを計算する計算手法を選択するように構成され得る。なお、この場合において、各計算手法を定義するデータは、例えば、その計算手法を選択する基準となる情報(環境要因に関する情報)と対応付けた状態で、手法別特徴量生成部110がアクセス可能な所定の記憶領域に予め記憶される。例えば、第1の具体例のケースでは、各計算手法のデータは、選択時の基準となる天候に関する情報(例:晴れ、くもり、雨、雪などを示す情報)と対応付けて記憶される。また例えば、第2の具体例のケースでは、各計算手法のデータは、選択時の基準となる人口密度に関する情報(例:人口密度の大きさを段階的な数値(ランク)で示す情報や、人口密度の数値を示す情報)と対応付けて記憶される。
ここで、第1の履歴データと第2の履歴データについて説明する。図6は、第1の履歴データおよび第2の履歴データの一例を示す図である。図6において、バツ印は、後述の{I}(k=1,2,・・・,K)に含まれる履歴データを例示している。また、図6において、三角の印は、後述の{E}(k=1,2,・・・,K)に含まれる履歴データを例示している。
図6に示されるように、手法別特徴量生成部110は、少なくとも1つの評価時点{t}(k=1,2,・・・,K)を設定する。またここで、各評価時点tを基準として決まる過去評価期間hは、それぞれ、上述の「第1の期間」に該当する。また、各評価時点tを基準として決まる各評価期間Δtは、それぞれ、上述の「第2の期間」に該当する。そして、手法別特徴量生成部110は、各評価時点tを基準として決まる各期間hに含まれる履歴データ{I}(k=1,2,・・・,K)を用いて、各セルにおける事象の発生し易さを計算手法別に計算する。
そして、手法別特徴量生成部110は、複数の計算手法それぞれについて計算された各セルにおける事象の発生し易さと、各評価時点tを基準として決まる各評価期間Δtに含まれる履歴データ{E}(k=1,2,・・・,K)とを用いて、計算手法別の特徴量集合を生成する(S108)。具体的には、手法別特徴量生成部110は、以下のように動作する。
手法別特徴量生成部110は、各セルにおける事象の発生し易さに基づいて、計算手法別に各セルを順位付けする。そして、手法別特徴量生成部110は、事象の発生し易さに基づいて決まる各セルの順位を、対象エリアの全セル数で割ることによって得られる評価値を算出する。そして、手法別特徴量生成部110は、第2の期間に含まれる履歴データ{E}(k=1,2,・・・,K)に基づいて、対象エリアにおいて事象が発生したセルを識別する。ここで、各セルには、計算手法別に計算された評価値が対応付けられている。手法別特徴量生成部110は、計算手法別に、識別した各セルの評価値を比較する処理を行い、当該評価値を大きさ順に並べる。これにより、計算手法別の特徴量集合が生成される。
なお、手法別特徴量生成部110が算出する評価値は、複数の計算手法に対して共通に定義でき、かつ、事象の発生し易さ、つまり発生確率に準じた意味を持たせることができる何らかの尺度であれば、特に制限されない。例えば、複数の計算手法の計算結果のすべてが確率(事象の発生確率)として解釈可能であれば、手法別特徴量生成部110は、それら複数の計算手法の計算結果に基づく事象の発生確率を評価値として用いてもよい。また、複数の計算手法の計算結果として、特定のスポット(事象に関連する施設など)からの距離が利用される場合、手法別特徴量生成部110は、それら複数の計算手法から得られる距離を評価値として用いてもよい。
複数の計算手法それぞれの特徴量集合が生成された後、第1行列生成部120は、第1行列を生成する(S110)。第1行列は、例えば、次のように生成される。
まず、第1行列生成部120は、計算手法別の特徴量集合を、行列の各次元のラベルに設定する。例えば、使用された計算手法の数が2つである場合、第1行列生成部120は、第1の計算手法について生成された特徴量集合を第1の次元(例えば、縦軸)のラベルR1(i=1,2,・・・,I)第2の計算手法について生成された特徴量集合を第2の次元(例えば、横軸)のラベルR2(j=1,2,・・・,J)として設定する。
そして、第1行列生成部120は、第2の期間に含まれる履歴データを用いて、第1行列の各行列要素に値を入力していく。なお、第1行列の各行列要素の初期値はいずれも0である。第1行列生成部120は、第2の期間に含まれる履歴データ{E}(k=1,2,・・・,K)に基づいて、第2の期間において事象が発生したセルを識別する。そして、第1行列生成部120は、識別したセルに対応付けられた計算手法別の評価値を用いて、値を入力すべき行列要素を特定する。例えば、2つの計算手法(第1の計算手法、第2の計算手法)を使って、2次元の第1行列が生成されるケースを考える。第1行列生成部120は、識別したセルそれぞれについて、第1の計算手法に基づく評価値および第2の計算手法に基づく評価値の組み合わせを取得する。そして、第1行列生成部120は、第1行列の各次元に設定されたラベルの値を参照し、当該評価値の組み合わせと同じ組み合わせとなる行列要素を特定する。そして、第1行列生成部120は、特定した行列要素に1を加算する。第1行列生成部120は、履歴データ{E}(k=1,2,・・・,K)の全てについて、上述の行列要素を特定して値を加算する処理を繰り返すことによって、第1行列を生成することができる。
図7は、第1行列生成部120により生成される第1行列の一例を示す図である。図7には、2次元の第1行列の一例が示されている。なお図7では、図の見易さを考慮して、初期値(=0)のままの行列要素は空欄で示されている。図7の例において、第1の計算手法の特徴量集合および第2の計算手法の特徴量集合が、それぞれ、縦軸方向のラベルR1および横方向のラベルR2として設定されている。このような第1行列において、ある行列要素(R1,R2)の値が「2」であったとする。これは、第1の計算手法での評価値が「R1」であり、かつ、第2の計算手法での評価値が「R2」であるセルについては、累計2件の事象が発生したことを意味している。なお、各計算手法において、複数の異なるセルに同じ評価値が付与される場合もある。そのため、第1行列の各行列要素に格納される値は、ある特定の1つのセルで発生した事象の件数を示すとは限らない。また、第1行列の次元数は、2次元に限られない。第1行列は、計算手法の数に応じた次元を有する。例えば、3種類の計算手法を用いた場合、第1行列は3次元行列となる。
次に、第2行列生成部130は、第2行列を生成する(S112)。第2行列は、例えば、次のように生成される。
まず、第2行列生成部130は、第1行列と同じラベルを、第2行列のラベルとして設定する。つまり、第1行列および第2行列について、行要素の数および列要素の数は同じとなる。第2行列生成部130は、各行列要素に、その行列要素に対応する各次元のラベルの値の合計値を入力する。図8は、第2行列生成部130により生成される第2行列の一例を示す図である。図8で示されるように、第2行列の各行列要素の値は、対応する各次元のラベル値によって決定される。具体的には、第2行列のある行列要素(R1,R2)の値は、当該行列要素の行ラベルの値R1と列ラベルの値R2との合計値となる。
次に、境界設定部140は、メモリ1030などの記憶領域に予め用意された或いはオペレータの入力により与えられた所定の閾値を用いて、第2行列において境界を設定する(S114)。本例において、この閾値は、対象エリアの全セルに対する、"事象が発生する可能性の高いセル"として予測するセル数の占める割合を示す。例えば、所定の閾値として「0.05」という値が与えられた場合、"事象が発生する可能性の高いセル"として予測するセルの数が全セル数の5%に制約されることを意味する。この制約は、例えば、事象に関連する業務(例:パトロールなど)に対応可能なリソース(人的リソース、機材リソース)の量に基づいて決定される。なお、所定の閾値は、時間的リソースおよび費用などに基づいて決定されてもよい。この場合、境界設定部140は、例えば、時間的リソースまたは費用に関する数値をパラメータとして所定の関数に代入することによって、所定の閾値を導出することができる。この場合の所定の関数は、例えば、メモリ1030などの記憶領域に予め用意される。
そして、境界設定部140は、第2行列の各行列要素の値と所定の閾値とを比較し、例えば図9に示されるように、各行列要素の値が所定の閾値を超える位置に境界を設定する。
図9は、第2行列において設定される境界の一例を示す図である。図9において、網掛けで示す行列要素の位置が境界の位置を示している。境界設定部140は、所定の閾値β(本図では「0.05」)と、行列要素の行ラベルの値R1および列ラベルの値R2との関係において、「R1+R2≦β」が成り立つ行列要素と、「R1+R2>β」が成り立つ行列要素とが隣接する位置を特定し、前者が成り立つ行列要素のうち最大の行列要素の位置を、境界の位置として設定する。これら境界に位置する行列要素に対応するラベル値の組み合わせの集合を{TH}(l=1,2,・・・,L)と表記する。lは、例えば、各行および各列についての探索順に付与される。また、{TH}の1つの要素THの値を、行ラベル値および列ラベル値をそれぞれth1およびth2として、TH(th1,th2)と表す。するとすべてのlについて,「th1+th2≦β」が成り立つ。
そして、評価指標生成部150は、境界設定部140により設定された境界の位置に対応する位置に存在する第1行列の行列要素(境界行列要素)を基に、複数の計算手法それぞれの評価値の組み合わせに関する評価指標を生成する(S116)。以下では、計算手法が2つである場合の評価指標生成部150の動作例について説明する。
評価指標生成部150は、次の処理を実行する。
(1)ラベル値組み合わせ集合{TH}の中から1つの要素THを取り出す。
(2)取り出した要素THのラベル値(th1,th2)を用いて、第1行列を複数の領域に分割する。
(3)複数の領域の少なくとも1つについて、行列要素の和を算出する。
(4)(3)で算出した行列要素の和を基に、取り出した要素THの評価指標を生成する。
(5){TH}の全ての要素を取り出すまで、(1)〜(4)の処理を繰り返す。
上述の動作を、図10乃至図12を用いて説明する。図10は、評価指標生成部150により生成された境界を基に決定される、第1行列における境界行列要素を例示する図である。図10に示されるように、評価指標生成部150は、境界設定部140により第2行列において設定された境界に基づいて、当該境界の位置と対応する位置に存在する第1行列の行列要素を境界行列要素として特定する。評価指標生成部150は、境界行列要素の1つを取り出し、当該取り出した境界行列要素を基準として、第1行列を複数の領域に分割する。ここで、第1行列の分割結果は、取り出された境界行列要素に応じて変わる。例えば、評価指標生成部150が複数の境界行列要素の中から境界行列要素THを取り出した場合、第1行列は図11に示されるように分割される。図11は、評価指標生成部150による第1行列の分割結果の一例を示す図である。また、評価指標生成部150が複数の境界行列要素の中から境界行列要素TH18を取り出した場合、第1行列は図12に示されるように分割される。図12は、評価指標生成部150による第1行列の分割結果の他の一例を示す図である。
図11および図12に示されるように、2次元の第1行列は、取り出した境界行列要素TH(th1,th2)により、4つの領域A〜Dに分割される。ここで、領域Aに含まれる行列要素の和は、第1の計算手法での評価値がth1以下であり、かつ、第2の計算手法での評価値がth2以下であるという条件を満たすセルで発生した事象の件数を意味する。言い換えると、領域Aには、先に述べたリソースに関する制約下での予測において、第1の計算手法および第2の計算手法の双方で"事象が発生する可能性の高いセル"として予測されたセルで発生した事象が含まれる。同様に、領域B、C、Dには、それぞれ、第1の計算手法だけで"事象が発生する可能性の高いセル"として予測されたセルで発生した事象、第2の計算手法だけで"事象が発生する可能性の高いセル"として予測されたセルで発生した事象、第1の計算手法および第2の計算手法のいずれにおいても"事象が発生する可能性の高いセル"として予測されなかったセルで発生した事象が含まれる。なお,予測されたセルが含まれる領域A〜Dを,予測されたセルの属性とよぶ。
そして、評価指標生成部150は、図11や図12に示されるように分割された複数の領域(領域A〜D)の少なくともいずれか1つの領域に含まれる行列要素の和を算出する。複数の領域のうちどの領域について行列要素の和を算出するかは、あらかじめ決められた評価指標の算出の仕方によって決まる。なお、評価指標の生成方法は様々である。例えば、評価指標生成部150は、領域Dに含まれる行列要素の和に関する以下の式(1)に基づいて、評価指標を生成することができる。
Figure 0006973575
また例えば、評価指標生成部150は、上述の履歴データ{E}の総数に対して上述の領域Aに含まれる行列要素の和が占める割合に基づく評価指標を生成してもよい。また例えば、評価指標生成部150は、上述の履歴データ{E}の総数に対して上述の領域B、あるいは、領域Cに含まれる行列要素の和が占める割合に基づく評価指標を生成してもよい。また、評価指標生成部150は、上述の履歴データ{E}の総数に対して上述の領域A〜Dの少なくとも2つ以上の領域に含まれる行列要素の和が占める割合に基づく評価指標を生成してもよい。また例えば、評価指標生成部150は、事象が発生する可能性の高いセル"として予測されたセル数に対する、評価期間Δtにおいて実際に事象が発生したセル数の割合を評価指標として生成してもよい。また例えば、評価指標生成部150は、評価期間Δtにおいて事象が発生したセルの総数に対する、"事象が発生する可能性の高いセル"として予測されたセルの中で当該評価期間Δtにおいて実際に事象が発生したセル数の割合を評価指標として生成してもよい。
上述の式(1)に基づいて、評価指標生成部150が生成する情報の一例を図13に示す。図13は、評価指標生成部150が生成する評価情報の一例を示す情報である。図13では、境界行列要素{TH}(l=1,2,・・・,32)における行ラベル値th1および列ラベル値th2の組み合わせと、領域Dに含まれる行列要素の和と、上記式(1)に基づく評価指標とを対応付けた情報が例示されている。
閾値組み合わせ特定部160は、{TH}の全ての要素それぞれの評価指標を比較し、評価が最大となる要素THの値の組み合わせ(th1,th2)を、閾値組み合わせとして特定する(S118)。一例として、評価指標生成部150が、上述の式(1)を用いて評価指標として生成した場合を考える。この場合、評価指標の値が大きいほど、複数の計算手法のいずれでも予測できなかった事象の数が少なくなる。図13の例では、TH31(0.00075、0.04736)に対応する評価指標値「0.348」が最大となる。この「0.348」という数値は、すべての評価時点{t}(k=1,2,・・・,K)において「第1の計算手法による評価値R1≦0.00075」および「第2の計算手法による評価値R2≦0.04736」の少なくともいずれか一方の条件が成り立つセルを"事象が発生する可能性の高いセル"として予測していた場合に、対応する評価期間Δt内に発生した全事象{E}(k=1,2,・・・,K)のうちの34.8%について予測できていたことを意味する。つまり、この場合、閾値組み合わせ特定部160は、TH31(0.00075、0.04736)の組み合わせを、評価を最大とする組み合わせとして特定する。他の一例として、評価指標生成部150が、「履歴データ{E}の総数に対して領域Aに含まれる行列要素の和が占める割合」を評価指標として生成した場合を考える。この場合、評価指標の値が大きいほど、複数の計算手法の双方で予測された事象の数が多くなる。つまり、この場合、閾値組み合わせ特定部160は、領域Aの行列要素の和が最大となる(th1,th2)の組み合わせを、評価を最大とする組み合わせとして特定する。
そして、閾値組み合わせ特定部160は、特定した要素THの値の組み合わせ(th1,th2)を、閾値組み合わせとして、メモリ1030やストレージデバイス1040等の記憶領域に記憶する(S120)。このとき、閾値組み合わせ特定部160は、複数の計算手法の組み合わせを示す情報および制約条件(所定の閾値)を示す情報と共に、特定した閾値組み合わせをメモリ等の記憶領域に記憶する。ここで記憶領域に記憶された閾値組み合わせは、後述の予測フェーズの処理で利用される。
<<予測フェーズの処理>>
予測結果出力部170は、複数の計算手法それぞれについて、事象の履歴データを基にある予測時点での事象の発生し易さを計算し、複数の計算手法それぞれにおける計算結果を基に"事象が発生する可能性の高いセル"を予測する(S122)。例えば、予測結果出力部170は、予測時点(予測年月日時刻t)を取得し、その予測年月日時刻tについて、複数の計算手法それぞれについて、事象の履歴データを基に、事象の発生し易さを計算する。そして、予測結果出力部170は、閾値組み合わせ特定部160により特定された閾値組み合わせを使って、"事象が発生する可能性が高いセル"を対象エリアのセルの中から選択することにより予測する。また、予測結果出力部170は、対象エリアにおいて"事象が発生する可能性の高いセル"と予測されたセルを、閾値組み合わせ特定部160により特定された閾値組み合わせに基づいて分類する(S124)。例えば、予測結果出力部170は、"事象が発生する可能性の高い"と予測されたあるセルについて、第1の計算手法によるそのセルの評価値R1および第2の計算手法によるそのセルの評価値R2の組み合わせと、メモリ等に記憶された閾値組み合わせ(th1,th2)とを比較する。そして、予測結果出力部170は、評価値R1と閾値th1との比較結果、および、評価値R2と閾値th2との比較結果に基づいて、予測されたセルの属性(当該セルが領域A〜Dのどの領域に含まれるか)を特定する。そして、予測結果出力部170は、S122の処理による予測結果とS124の処理による分類結果とを含む情報(例:図14)を出力する(S126)。
図14は、予測結果出力部170が出力する情報の一例を示す図である。図14に示される例では、予測結果出力部170は、"事象が発生する可能性の高いセル"として予測されたセルと、当該セルが閾値組み合わせ特定部160により特定された組み合わせによって分類される領域のいずれに含まれるかを示す属性情報とを含む一覧を出力している。図14のような情報によれば、"事象が発生する可能性の高いセル"として予測されたセルが、どの計算手法を根拠として選択されたかが容易に判断できる。例えば、セル(12,4)およびセル(23,9)は、第1の計算手法および第2の計算手法の双方において"事象が発生する可能性の高いセル"として予測されたことがわかる。なお、セル(12,4)は、手法別特徴量生成部110において対象エリアを複数セルに分割(S104)した際に付与したセル識別IDが(12,4)であるセルを示す。また、セル(9,3)、セル(14,8)、セル(27,43)、セル(35,7)およびセル(42,35)は、第1の計算手法だけで"事象が発生する可能性の高いセル"として予測されたことがわかる。また、セル(11,40)、セル(14,8)およびセル(27,35)は、第2の計算手法だけで"事象が発生する可能性の高いセル"として予測されたことがわかる。
なお、予測結果出力部170が出力する情報は、図14の例に制限されない。例えば、予測結果出力部170は、図15や図16に示されるような情報を出力するように構成されていてもよい。図15及び図16は、予測結果出力部170が出力する情報の他の一例を示す図である。図15の例では、予測結果出力部170は、「閾値組み合わせに基づく分類」の代わりに、予測に用いた閾値組み合わせと予測されたセルの計算手法別の評価値との大小関係を示す情報を出力している。また、図16の例では、予測結果出力部170は、予測に用いた閾値組み合わせに基づく条件の成立有無を示す情報を出力している。これらの図に示すような情報によっても、"事象が発生する可能性の高いセル"として予測されたセルが、どの計算手法を根拠として選択されたかが容易に判断できる。
また、予測結果出力部170は、上述したような各セルの分類結果と、GIS(Geographic Information System)などの地図情報を提供するシステムから得られるデータとを組み合わせた情報を表示装置に出力するように構成されていてもよい。この場合、予測結果出力部170は、例えば図17に例示されるような情報を出力する。図17は、予測結果出力部170が出力する情報の他の一例を示す図である。図17の例において、水平線のハッチングパターンを有するセルは「第1の計算手法で計算された評価値R1≦閾値組み合わせにおけるth1」という条件を満たすセルである。また、垂直線のハッチングパターンを有するセルは、「第2の計算手法で計算された評価値R2≦閾値組み合わせにおけるth2」という条件を満たすセルである。また、斜線のハッチングパターンを有するセルは、「第1の計算手法で計算された評価値R1≦閾値組み合わせにおけるth1」かつ「第2の計算手法で計算された評価値R2≦閾値組み合わせにおけるth2」という条件を満たすセルである。図17に例示されるような情報によっても、各セルがどの計算手法によって"事象が発生する可能性の高いセル"と予測されたかが容易に判断できる。なお、予測結果出力部170は、計算手法それぞれに割り当てられた固有色(例えば、第1の計算手法は赤、第2の計算手法は青、双方が重なる場合は紫など)によってセルを塗り分けるように構成されていてもよい。またこの場合、予測結果出力部170は、セルの色の濃さを、そのセルにおける評価値の大きさに応じて変更してもよい。このような情報によれば、「どの計算手法で予測されたか」ということと共に、その予測の根拠の度合いを容易に判断することができる。
また、予測結果出力部170は、図17に例示されるような情報を表示する場合に、セルの属性による表示の絞り込み機能を提供するように構成されていてもよい。ここで、セルの属性とは、例えば、第1の計算手法だけで予測されたセル、第2の計算手法だけで予測されたセル、第1の計算手法および第2の計算手法の双方で予測されたセル、などである。この場合、予測結果出力部170は、例えばオペレータによる属性の選択入力結果に応じて、選択された属性を有するセルのみにハッチング表示を行うように構成される。
なお、予測結果出力部170は、事象の種類(例えば、「ひったくり」や「自転車盗」などの犯罪の種類)毎の発生し易さについて複数の計算手法を使った予測を行い、その結果として予測されたセルにつき、閾値組み合わせに基づく分類処理を行ってもよい。この場合、予測結果出力部170は、例えば、図14乃至図16に例示されるような一覧情報を、事象の種類ごとに生成して表示装置に表示する。また、予測結果出力部170は、例えば、図17に例示されるような地図情報を事象の種類ごとに生成し、それらを統合した状態で表示装置に表示してもよい。また、この場合に、予測結果出力部170は、事象の種類を指定する入力を受け付け、当該入力によって指定された種類に関する情報を表示装置に表示させるように構成されていてもよい。
以上、本実施形態によれば、コンピュータを用いて事象の発生予測を行った場合に、その予測がどのような判断基準でなされたかを簡単に説明できるようになる。
<変形例>
上記では、情報処理装置10が1つの対象エリアについて閾値組み合わせを特定する構成例について説明した。ここで、情報処理装置10は、複数の対象エリアについて共通の閾値組み合わせを特定するように構成されていてもよい。ここでは、複数の対象エリアについて共通の閾値組み合わせを特定する場合の情報処理装置10の構成および動作の例について説明する。
本変形例のケースでは、まず、複数の対象エリアを示す情報と、各々の対象エリアにおける事象の履歴データとが情報処理装置10に対して与えられる。このとき、情報処理装置10は、任意の基準に基づいて、複数の対象エリアを1以上の組に分類する。一例として、情報処理装置10は、「単位面積あたりの事象の発生件数(発生件数密度)」という基準を用いて、複数の対象エリアを1以上の組に分類することができる。この場合、情報処理装置10は、次のように動作する。まず、情報処理装置10は、各対象エリアについて、履歴データの件数(事象の発生件数)を面積で割った値(発生件数密度)を算出する。そして、情報処理装置10は、各対象エリアの分類先(組)を、各対象エリアについて算出された発生件数密度に基づいて特定する。これにより、互いに発生密度件数(特徴)の類似する複数の対象エリアが、同一の組に分類される。この処理は、手法別特徴量生成部110によって実行されてもよいし、図示しない新たな処理部によって実行されてもよい。
複数の対象エリアの分類が完了した後、手法別特徴量生成部110は、複数の対象エリアそれぞれについて、上述したように、複数の計算手法を用いて各セルの事象の発生し易さを計算する。また、手法別特徴量生成部110は、対象エリアの組毎に、計算手法別の特徴量集合を生成する。具体的な例として、3つの対象エリアが所定の基準に基づいて同一の組に分類された場合を考える。この場合、手法別特徴量生成部110は、これら3つの対象エリアを1つのエリアA1と見做し、上述したように、計算手法別の特徴量集合を生成する。具体的には、手法別特徴量生成部110は、エリアA1中の各セルについて、第1の計算手法を用いて事象の発生し易さを計算し、その値に基づいた各セルの評価値を計算して、エリアA1に関する一つの特徴量集合を生成する。手法別特徴量生成部110は、第1の計算手法以外に用いた他の計算手法についても、同様にして、特徴量集合を生成する。なお、上述の分類処理によって対象エリアの組が複数得られた場合、手法別特徴量生成部110は、ここで説明したような処理を対象エリアの組毎に実行する。このようにして、手法別特徴量生成部110は、対象エリアの組毎に、計算手法別の特徴量集合を生成する。
次に、第1行列生成部120は、対象エリアの組毎に、第1行列を生成する処理を実行する。例えば上述の分類処理によって対象エリアの組が複数得られた場合、第1行列生成部120は、対象エリアの複数の組の1つを選択する。そして、第1行列生成部120は、その選択された組について生成された計算手法別の特徴量集合を、その組の第1行列の各次元のラベルに設定する。そして、第1行列生成部120は、選択された組に分類されている各対象エリアの履歴データのうち、先に説明した「第2の期間」に含まれる履歴データを用いて、第1行列の行列要素に値を入力していく。これにより、選択された組の第1行列が生成される。第1行列生成部120は、複数の組それぞれについて同様の処理を繰り返し、複数の組それぞれの第1行列を生成する。
次に、第2行列生成部130は、対象エリアの組毎に、第2行列を生成する処理を実行する。例えば上述の分類処理によって対象エリアの組が複数得られた場合、第2行列生成部130は、まず、対象エリアの複数の組の1つを選択する。そして、第2行列生成部130は、その選択された組について生成された第1行列と同じラベルを、第2行列のラベルとして設定する。そして、第2行列生成部130は、選択された組の第2行列の各行列要素に、その行列要素に対応する各次元のラベルの値の合計値を入力する。これにより、選択された組の第2行列が生成される。第2行列生成部130は、複数の組それぞれについて同様の処理を繰り返し、複数の組それぞれの第2行列を生成する。
次に、境界設定部140は、所定の閾値を用いて、複数の組それぞれの第2行列において境界を設定する。例えば上述の分類処理によって対象エリアの組が複数得られた場合、境界設定部140は、まず、対象エリアの複数の組の1つを選択する。そして、境界設定部140は、その選択された組について生成された第2行列の各行列要素の値と所定の閾値とを比較し、その組の第2行列において境界を設定する。境界設定部140は、複数の組それぞれについて同様の処理を繰り返し、複数の組それぞれの第2行列において境界を設定する。
次に、評価指標生成部150は、対象エリアの組毎に、境界設定部140により設定された境界を用いて、上述の「評価指標」を算出する。例えば上述の分類処理によって対象エリアの組が複数得られた場合、評価指標生成部150は、まず、対象エリアの複数の組の1つを選択する。そして、評価指標生成部150は、その選択された組の第2行列において設定された境界の位置に対応する位置に存在する、その組の第1行列の行列要素(境界行列要素)を特定する。そして、評価指標生成部150は、境界行列要素毎に第1行列を複数の領域に分割する。そして、評価指標生成部150は、各分割領域に含まれる行列要素を基に、複数の計算手法それぞれの評価値の組み合わせに関する評価指標を生成する。評価指標生成部150は、複数の組それぞれについて同様の処理を繰り返し、複数の組それぞれについて評価指標を生成する。
次に、閾値組み合わせ特定部160は、対象エリアの組毎に、評価指標生成部150により生成された評価指標を基に、上述の「閾値組み合わせ」を特定する。例えば上述の分類処理によって対象エリアの組が複数得られた場合、閾値組み合わせ特定部160は、まず、対象エリアの複数の組の1つを選択する。そして、閾値組み合わせ特定部160は、選択された組について、上述の境界行列要素毎に第1行列を分割した結果から得られた各評価指標のうち、所定の基準による評価が最大となる評価指標を特定する。そして、閾値組み合わせ特定部160は、特定した評価指標に対応する境界行列要素の各ラベル値の組み合わせを、閾値組み合わせとして特定する。閾値組み合わせ特定部160は、複数の組それぞれについて同様の処理を繰り返し、複数の組それぞれについて閾値組み合わせを生成する。複数の組それぞれについて生成された閾値組み合わせは、当該組を識別する組識別情報(例:組毎に一意な識別子など)と対応付けて、所定の記憶領域(例:メモリ1030やストレージデバイス1040など)に記憶される。
本変形例では、対象エリアの組毎に閾値組み合わせが生成される。これにより、ある組に含まれる全ての対象エリアの予測において共通で利用可能な閾値組み合わせを特定することができる。
なお、予測フェーズにおいて、予測結果出力部170は、対象エリアが属する組を示す情報を入力情報として更に取得することによって、その組に対応する閾値組み合わせを読み出して予測処理を実行することができる。
このように、本変形例では、所定の基準(既存知識など)を基に類似性が想定されるデータをまとめて、学習が行われる。これにより、ある対象エリアで学習用のデータとして用いる事象の履歴データの数が少ないケースであっても、当該対象エリアと類似する特徴を有する他のエリアの履歴データによってデータの不足を補うことができる。その結果、学習によって得られるモデルの予測精度を高める効果が期待できる。
[第2実施形態]
本実施形態は、以下の点を除き、第1実施形態と同様の構成を有する。
<機能構成例>
図18は、第2実施形態における情報処理装置10の機能構成例を示す図である。図18に示されるように、本実施形態の情報処理装置10は、評価指標可視化部152を更に有する。評価指標可視化部152は、評価指標生成部150により生成された評価指標の可視化情報を表示装置に出力する。本実施形態において、評価指標可視化部152は、例えば、評価指標生成部150により生成された評価指標の大きさに基づいて、可視化情報の表示態様を変更する。
評価指標可視化部152は、例えば、図19に示されるような評価指標の可視化情報を表示装置に表示する。図19は、評価指標可視化部152が表示する評価指標の可視化情報の一例を示す図である。図19の例において、評価指標可視化部152は、ラベル値組み合わせ集合の要素TH(th1,th2)(l=1,2,・・・,L)のそれぞれのth1とth2との組み合わせに対応する位置に、th1とth2との組み合わせについて評価指標生成部150により生成された評価指標値に関連する数値を半径とする、円形のマーカーを表示した散布図を、可視化情報として生成している。図19に例示される可視化情報によれば、例えば、以下が把握される。
(1)第1の計算手法の評価値th1が小さく、かつ、第2の計算手法の評価値th2が大きいほど、評価指標は大きくなる。
(2)図19の右上の範囲での組み合わせであれば、評価指標はそれほど大きく変化しない。
このように、評価指標を可視化することによって、事象の発生を予測する際に利用する閾値組み合わせに対する評価指標の変化傾向を定性的に把握できるようになる。このような情報は例えば、以下のように利用できる。一例として、評価指標が大きく変化しない閾値組み合わせが複数存在する場合、閾値組み合わせ特定部160は、それらの組み合わせに係る閾値に基づく統計値(例えば、平均値など)を計算し、その計算結果を予測に利用する閾値組み合わせとして特定してもよい。そのほかにも、閾値組み合わせ特定部160は、事象の発生を予測する計算手法がm個存在する場合に、図19に例示されるような可視化情報を使って、評価指標に対する寄与の小さい計算手法に関する閾値を閾値組み合わせに含めないように設定する、あるいは、寄与傾向が類似している複数の計算手法については、その中のいずれか1つを選択して閾値組み合わせを特定するようにしてもよい。また、予測結果出力部170は、事象の発生を予測する計算手法がm個存在する場合に、図19に例示されるような可視化情報を使って、評価指標に対する寄与の小さい計算手法を予測に使用しないように設定する、あるいは、寄与傾向が類似している複数の計算手法については、その中のいずれか1つを選択するようにしてもよい。このようにすることで、行列の次元を削減して、計算処理量の削減効果が期待できる。
なお、評価指標可視化部152が生成する可視化情報は、組み合わせ毎の評価指標の大小関係を把握し易い情報であればよく、図19の例に制限されない。例えば、評価指標可視化部152は、すべての組み合わせの中で最大の評価指標値に対する割合やその自然対数をとった値に基づくグラフを可視化情報として表示してもよい。
[第3実施形態]
本実施形態は、以下の点を除き、第1実施形態または第2実施形態と同様の構成を有する。以下では、第1実施形態の構成をベースとする構成について説明する。
<機能構成例>
図20は、第3実施形態における情報処理装置10の機能構成例を示す図である。図20に示されるように、本実施形態の情報処理装置10は、予測ルール出力部180をさらに備える。予測ルール出力部180は、閾値組み合わせ特定部160によって特定された閾値組み合わせに基づいて、セルの属性を分類する処理(例:図4のS124の処理)における分類ルールに関する情報を表示装置に出力する。
予測ルール出力部180は、例えば、図21に例示されるような情報を表示装置に出力する。図21は、予測ルール出力部180により出力される情報の一例を示す図である。図21の例において、予測ルール出力部180は、閾値組み合わせ特定部160により特定された閾値組み合わせに基づいて、セルの属性を分類するルール(決定木)を示す情報を生成し、表示装置に出力している。なお、図21においてR1(p,g)とは、予測時点tにおけるセルgの事象の発生し易さを第1の計算手法で計算した値の評価値を意味する。また、図21においてR2(p,g)とは、予測時点tにおけるセルgの事象の発生し易さを第2の計算手法で計算した値の評価値を意味する。予測結果出力部170による予測では、この決定木に従って、各セルがA〜Dのいずれかに分類される。なお、一般的に、計算手法の数がm個の場合、予測ルール出力部180により表示される決定木は、m層の決定木となる。この場合、最上位層に各セルのm次元の評価値ベクトルが入力され、最終的に、各セルが2の分類のいずれかに振り分けられる。
本実施形態の構成によれば、予測結果出力部170での予測ルールが可視化される。本発明の情報処理装置10を使って事象の発生を予測する人物は、このように可視化された予測ルールを見ることによって、予測結果がどのように分類されるかについて簡単に理解できるようになる。
以上、図面を参照して本発明の実施の形態について述べたが、本発明はこれらに限定されて解釈されるべきものではなく、本発明の要旨を逸脱しない限りにおいて、当業者の知識に基づいて、種々の変更、改良等を行うことができる。実施形態に開示されている複数の構成要素は、適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素からいくつかの構成要素を削除してもよいし、異なる実施形態の構成要素を適宜組み合わせてもよい。
また、上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。また、上述の各実施形態は、内容が相反しない範囲で組み合わせることができる。
上記の実施形態の一部または全部は、以下の付記のようにも記載されうるが、以下に限られない。
1.
過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成する手法別特徴量生成手段と、
前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成する第1行列生成手段と、
前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成する第2行列生成手段と、
所定の閾値に基づいて、前記第2行列において行列要素の境界を設定する境界設定手段と、
前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成する評価指標生成手段と、
前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定する閾値組み合わせ特定手段と、
前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する予測結果出力手段と、
を備える情報処理装置。
2.
前記予測結果出力手段は、前記計算手法別に計算した前記結果を分類する処理を、前記事象の種類ごとに実行する、
1.に記載の情報処理装置。
3.
前記評価指標の可視化情報を表示装置に出力する評価指標可視化手段を更に備える、
1.または2.に記載の情報処理装置。
4.
前記評価指標可視化手段は、前記評価指標の大きさに基づいて、当該評価指標の表示態様を変更する、
3.に記載の情報処理装置。
5.
コンピュータが、
過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成し、
前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成し、
前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成し、
所定の閾値に基づいて、前記第2行列において行列要素の境界を設定し、
前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成し、
前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定し、
前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する、
ことを含む情報処理方法。
6.
前記コンピュータが、前記計算手法別に計算した前記結果を分類する処理を、前記事象の種類ごとに実行する、
ことを含む5.に記載の情報処理方法。
7.
前記コンピュータが、前記評価指標の可視化情報を表示装置に出力する、
ことを含む5.または6.に記載の情報処理方法。
8.
前記コンピュータが、前記評価指標の大きさに基づいて、当該評価指標の表示態様を変更する、
ことを含む7.に記載の情報処理方法。
9.
コンピュータに、5.から8.のいずれか1つに記載の情報処理方法を実行させるためのプログラム。
10 情報処理装置
110 手法別特徴量生成部
120 第1行列生成部
130 第2行列生成部
140 境界設定部
150 評価指標生成部
152 評価指標可視化部
160 閾値組み合わせ特定部
170 予測結果出力部
180 予測ルール出力部
1010 バス
1020 プロセッサ
1030 メモリ
1030 例:メモリ
1040 ストレージデバイス
1050 入出力インタフェース
1060 ネットワークインタフェース

Claims (6)

  1. 過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成する手法別特徴量生成手段と、
    前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成する第1行列生成手段と、
    前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成する第2行列生成手段と、
    所定の閾値に基づいて、前記第2行列において行列要素の境界を設定する境界設定手段と、
    前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成する評価指標生成手段と、
    前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定する閾値組み合わせ特定手段と、
    前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する予測結果出力手段と、
    を備える情報処理装置。
  2. 前記予測結果出力手段は、前記計算手法別に計算した前記結果を分類する処理を、前記事象の種類ごとに実行する、
    請求項1に記載の情報処理装置。
  3. 前記評価指標の可視化情報を表示装置に出力する評価指標可視化手段を更に備える、
    請求項1または2に記載の情報処理装置。
  4. 前記評価指標可視化手段は、前記評価指標の大きさに基づいて、当該評価指標の表示態様を変更する、
    請求項3に記載の情報処理装置。
  5. コンピュータが、
    過去に発生した事象の履歴データのうち第1の期間に含まれる第1の履歴データに基づいて複数の計算手法それぞれについて計算される対象エリアの各セルにおける事象の発生し易さと、前記第1の期間よりも後の第2の期間に含まれる第2の履歴データとに基づいて、特徴量集合を前記計算手法別に生成し、
    前記計算手法別に生成された特徴量集合を各次元のラベルとして有し、かつ、各行列要素に対応するセルにおける前記第2の履歴データに基づく前記事象の発生件数を行列要素として有する第1行列を生成し、
    前記第1行列と同じラベルを有し、かつ、各行列要素に対応する各次元のラベル値の合計値を行列要素として有する第2行列を生成し、
    所定の閾値に基づいて、前記第2行列において行列要素の境界を設定し、
    前記境界の位置と対応する位置に存在する前記第1行列の行列要素である境界行列要素のそれぞれについて、前記境界行列要素を基準として前記第1行列を複数の領域に分割し、前記複数の領域の少なくとも1つの領域の行列要素の和を用いた評価指標を生成し、
    前記境界行列要素それぞれについて生成された評価指標に基づいて、評価が最大となる前記境界行列要素に対応する各次元のラベル値の組み合わせを、前記事象の予測に用いる閾値組み合わせとして特定し、
    前記閾値組み合わせに基づいて、所定の予測時点における前記対象エリアの各セルの事象の発生し易さの予測結果を分類し、その分類結果を含む情報を出力する、
    ことを含む情報処理方法。
  6. コンピュータに、請求項5に記載の情報処理方法を実行させるためのプログラム。
JP2020118696A 2020-07-09 2020-07-09 情報処理装置、情報処理方法、およびプログラム Active JP6973575B1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2020118696A JP6973575B1 (ja) 2020-07-09 2020-07-09 情報処理装置、情報処理方法、およびプログラム
PCT/JP2021/025040 WO2022009787A1 (ja) 2020-07-09 2021-07-01 情報処理装置、情報処理方法、およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2020118696A JP6973575B1 (ja) 2020-07-09 2020-07-09 情報処理装置、情報処理方法、およびプログラム

Publications (2)

Publication Number Publication Date
JP6973575B1 true JP6973575B1 (ja) 2021-12-01
JP2022015687A JP2022015687A (ja) 2022-01-21

Family

ID=78766756

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020118696A Active JP6973575B1 (ja) 2020-07-09 2020-07-09 情報処理装置、情報処理方法、およびプログラム

Country Status (2)

Country Link
JP (1) JP6973575B1 (ja)
WO (1) WO2022009787A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128808A (ja) * 2003-10-24 2005-05-19 Mitsubishi Electric Corp 予測装置
JP2012117829A (ja) * 2010-11-29 2012-06-21 Denso Corp 予測装置
JP2015187773A (ja) * 2014-03-26 2015-10-29 公立大学法人大阪市立大学 データ解析装置、データ解析プログラム及びデータ解析方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005128808A (ja) * 2003-10-24 2005-05-19 Mitsubishi Electric Corp 予測装置
JP2012117829A (ja) * 2010-11-29 2012-06-21 Denso Corp 予測装置
JP2015187773A (ja) * 2014-03-26 2015-10-29 公立大学法人大阪市立大学 データ解析装置、データ解析プログラム及びデータ解析方法

Also Published As

Publication number Publication date
WO2022009787A1 (ja) 2022-01-13
JP2022015687A (ja) 2022-01-21

Similar Documents

Publication Publication Date Title
Terti et al. Toward probabilistic prediction of flash flood human impacts
Al-Sharif et al. A novel approach for predicting the spatial patterns of urban expansion by combining the chi-squared automatic integration detection decision tree, Markov chain and cellular automata models in GIS
Akbari et al. A maritime search and rescue location analysis considering multiple criteria, with simulated demand
CN113570867B (zh) 一种城市交通状态预测方法、装置、设备及可读存储介质
US20230229983A1 (en) Dynamic supply chain visualization
Martin et al. Evaluation of gridded population models using 2001 Northern Ireland Census data
CN112530559A (zh) 一种突发公共卫生事件医疗物资智能调配系统
Li et al. Assimilating process context information of cellular automata into change detection for monitoring land use changes
Zhang et al. Visual analytics and prediction system based on deep belief networks for icing monitoring data of overhead power transmission lines
CN117522652B (zh) 人居环境脆弱性评价方法、系统、智能终端及存储介质
CN113852204A (zh) 一种于数字孪生的变电站三维全景监视系统及方法
Croft et al. Structuring the unstructured: estimating species-specific absence from multi-species presence data to inform pseudo-absence selection in species distribution models
JP6973575B1 (ja) 情報処理装置、情報処理方法、およびプログラム
Outay et al. Random forest models for motorcycle accident prediction using naturalistic driving based big data
Dong et al. TCEVis: visual analytics of traffic congestion influencing factors based on explainable machine learning
CN106844948B (zh) 滑坡预测方法和装置
JP6675203B2 (ja) 商圏分析レポートシステム及び商圏分析レポート処理プログラム
Hasanudin et al. a Comparative Study of Iconnet Jabodetabek and Banten Using Linear Regression and Support Vector Regression
Eksler Exploring spatial structure behind the road mortality of regions in Europe
Casello et al. Automated tool for geographic information systems that supports transit network design by identifying urban activity centers
CN117458450B (zh) 电力数据能耗预测分析方法及系统
Richardson et al. Modelling Satellite Data for Automobile Insurance Risk
CN112860824B (zh) 一种高分辨率dem地形特征提取的尺度适应性评价方法
Shen Landslide Forecast in Taiwan Based on Machine Learning in the GIS field
JP7435742B2 (ja) 判断支援装置、判断支援方法及びプログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200709

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20211005

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20211018

R150 Certificate of patent or registration of utility model

Ref document number: 6973575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150