JP6052900B2 - 情報処理装置 - Google Patents

情報処理装置 Download PDF

Info

Publication number
JP6052900B2
JP6052900B2 JP2014041725A JP2014041725A JP6052900B2 JP 6052900 B2 JP6052900 B2 JP 6052900B2 JP 2014041725 A JP2014041725 A JP 2014041725A JP 2014041725 A JP2014041725 A JP 2014041725A JP 6052900 B2 JP6052900 B2 JP 6052900B2
Authority
JP
Japan
Prior art keywords
graph
machine
partial structures
similarity
partial
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2014041725A
Other languages
English (en)
Other versions
JP2015166991A (ja
Inventor
竜也 長
竜也 長
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hitachi Construction Machinery Co Ltd
Original Assignee
Hitachi Construction Machinery Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hitachi Construction Machinery Co Ltd filed Critical Hitachi Construction Machinery Co Ltd
Priority to JP2014041725A priority Critical patent/JP6052900B2/ja
Publication of JP2015166991A publication Critical patent/JP2015166991A/ja
Application granted granted Critical
Publication of JP6052900B2 publication Critical patent/JP6052900B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Description

本発明は、複数種類のグラフとして表現可能な離散データから、相関を持った構造を抽出する情報処理装置に関する。
一般に、データ間の類似度を測るシステムが知られている(例えば、特許文献1参照)。特許文献1に記載されたシステムでは、予め測りたい対象となるデータを決めて、類似度を定義している。一方、非特許文献1,2には、そのような恣意的に対象を決めずに、データそのものからグラフ構造を抽出する構成が記載されている。
特開2010−92432号公報
Tumminello M, Micciche S, Lillo F, Piilo J, Mantegna N, "Statistically Validated Networks in Bipartite Complex Systems", PLoS ONE 2011 6(3): e17994. doi:10.1371/journal.pone.0017994 Newman M.E.J, "Modularity and community structure in networks", PNAS 2006 103(23): 8577-8582; doi:10.1073/pnas.0601602103
ところで、特許文献1に記載されたシステムでは、予め測りたい対象となるデータを決める必要があるから、データ間の相関関係が不明なデータには適用が難しいという問題がある。また、非特許文献1,2には、データそのものからグラフ構造を抽出する構成が記載されているが、グラフ同士の類似度を測る手段は開示されていない。
本発明は上述した従来技術の問題に鑑みなされたもので、本発明の目的は、複数種類のグラフとして表現可能な離散データから、相関を持った構造を抽出する情報処理装置を提供することにある。
上述した課題を解決するために、請求項1の発明による情報処理装置は、完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するノードを持つ確率を類似度として算出する類似度算出手段と、前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え、前記類似度算出手段は、個々の前記部分構造体を構成するノードが、前記部分構造体の集合に属する全てのノードの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のノードを共有する確率を、複数の前記部分構造体が互いに共通するノードを持つ確率として算出することを特徴とする。請求項1の発明による情報処理装置は、以下の一連の処理により上記目的を達成する。(1)離散データからノードの部分集合または部分グラフからなる部分構造体を生成する。(2)部分構造体同士の類似度を測る。(3)その類似度に基づき部分構造体同士の相関の有無を判定する。
請求項2の発明による情報処理装置は完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するリンクを持つ確率を類似度として算出する類似度算出手段と、前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え、前記類似度算出手段は、個々の前記部分構造体を構成するリンクが、前記部分構造体の集合に属する全てのリンクの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のリンクを共有する確率を、複数の前記部分構造体が互いに共通するリンクを持つ確率として算出することを特徴としている。
請求項3の発明による情報処理装置は完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するノードを持ち、かつ複数の前記部分構造体が互いに共通するリンクを持つ確率を類似度として算出する類似度算出手段と、前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え、前記類似度算出手段は、個々の前記部分構造体を構成するノードが、前記部分構造体の集合に属する全てのノードの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のノードを共有し、かつ、個々の前記部分構造体を構成するリンクが、前記部分構造体の集合に属する全てのリンクの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のリンクを共有する確率を、複数の前記部分構造体が互いに共通するノードを持ち、かつ複数の前記部分構造体が互いに共通するリンクを持つ確率として算出することを特徴としている。
請求項4の発明では、前記構造化手段は、2種類の前記部分構造体を形成し、一の種類の部分構造体は、属性データに基づいて形成され他の種類の部分構造体は、履歴データに基づいて形成されることを特徴としている。
請求項5の発明では、前記構造化手段は、建設機械の端末識別子をノードとして持つ2種類の前記部分構造体を形成し、一の種類の部分構造体は、前記建設機械の属性データに基づいて形成され他の種類の部分構造体は、前記建設機械の稼動履歴データに基づいて形成されることを特徴としている。
請求項1の発明によれば、構造化手段は、種類の異なる、グラフとして表現可能な複数種類離散データから、部分構造体を、離散データの種類に応じて生成する。そして、これら種類の異なる、グラフとして表現可能なデータにより生成された部分構造体間で、全ての部分構造体の組み合わせに対し、複数の部分構造体が互いに共通するノードを持つ確率を類似度として算出する。これにより、部分構造体間の相関関係を発見的に得ることが可能になる。従来技術は、種類の異なる複数のデータ間に相関があると仮定して、それらデータ間の類似度を例えば特許文献1に記載のルールに基づき算出する。そして、その類似度に基づきノードの部分集合を構造化する。このような従来手法と比べ、本発明では構造化処理と類似度の算出処理の順番を逆転させることができる。そして、ノード同士の類似度ではなく、部分構造体間の類似度を算出することができる。その結果、離散データのみに基づき構造化された部分構造体間の相関関係を得ることが可能となる。
また、請求項の発明によれば、類似度算出手段は、複数の部分構造体が互いに共通するノードを持つ確率を部分構造体間の類似度として算出する。これにより、部分構造体間の類似度を、部分構造体が持つ位相的な特徴を排除して定義することができる。ここで、共通するノードをもつ確率とは、個々の部分構造体を構成するノードが、前記部分構造体の集合に属する全てのノードの中から、独立な一様分布に従い選び出されると仮定したとき、複数の部分構造体が同一のノードを共有する確率とする。また、位相的な特徴を排除するとは、どのノードがどのノードとリンクを張っているかの情報を、類似度の算出に反映させないことである。例えば、グラフにより表現された企業間取引ネットワークを考えた場合、同種の製品を作る製造業者間の取引ネットワークは、類似していると考えられる。企業間取引のネットワークの構造は商社等の影響により変化すると考えられる。ここで、もし商社等の影響を無視して企業間取引ネットワークの類似度を算出したい場合には、本発明の情報処理装置を用いれば商社等の影響を排除した類似度を算出することができる。商社を経由して取引する場合は、商社を経由したリンクが張られている。このリンクを無視して、企業間取引に参加している企業のみに着目して相関関係を抽出するのが請求項の発明である。
請求項の発明によれば、類似度算出手段は、複数の部分構造体が互いに共通するリンクを持つ確率を部分構造体間の類似度として算出する。これにより、部分構造体間の類似度を、部分構造体が持つ位相的な特徴を反映させて算出することができる。位相的な特徴を反映させるとは、どのノードがどのノードとリンクを張っているかの情報を類似度の算出に反映させることである。例えば、グラフにより表現された企業間取引ネットワークを考えた場合、同種の製品を作る製造業者間の取引ネットワークは、類似していると考えられる。企業間取引のネットワークの構造は商社等の影響により変化すると考えられる。よって、もし商社等の影響を考慮して企業間取引ネットワークの類似度を算出したい場合には、本発明の情報処理装置を用いれば商社等の影響まで考慮して類似度を算出することができる。商社を経由して取引する場合は、商社を経由したリンクが張られている。このリンクを考慮して、即ち企業間取引に参加している企業同士のつながりを考慮して相関関係を抽出するのが請求項の発明である。
請求項3の発明によれば、類似度算出手段は、複数の部分構造体が互いに共通するノードを持つ、かつ複数の部分構造体が互いに共通するリンクを持つ確率を部分構造体間の類似度として算出する。

請求項4の発明によれば、履歴に基づいて構造化した部分構造体を、属性に基づいて構造化した種類の異なる別の部分構造体に帰依させて、それら2つの部分構造体間の関係の解釈を容易にすることが可能になる。種類の異なる別の部分構造体とは、履歴と属性という性質の異なる離散データにより、生成された部分構造体であるという意味である。従来技術は履歴と属性間の関係の予想を立ててから、例えば特許文献1に記載の手法に基づきグラフに属するノード間の類似度を算出する。そして、ノードを類似度に基づくリンクによって接続することにより、ノードの部分集合を構造化する。このような従来手法と比べ、本発明は構造化と類似度の算出の順番を逆転させることができる。そして、ノード間の類似度ではなく、部分構造体間の類似度を算出することができる。その結果、履歴のみに基づき構造化された部分構造体と、属性のみに基づき構造化された部分構造体との相関関係を得る事が可能となる。
請求項5の発明によれば、建設機械の稼動履歴に基づいて構造化した建設機械の端末識別子の部分構造体を、建設機械の属性に基づいて構造化した、種類の異なる別の端末識別子の部分構造体に帰依させて、これら2つの部分構造体間の関係の解釈を容易にすることが可能になる。従来技術は建設機械の稼動履歴と建設機械の属性間の関係の予想を立ててから、例えば特許文献1に記載の手法に基づき建設機械同士の類似度を算出する。そして、建設機械の端末識別子を類似度に基づくリンクによって接続することにより、建設機械の端末識別子を構造化する。このような従来手法と比べ、本発明は構造化と類似度の算出の順番を逆転させることができる。そして、建設機械同士の類似度ではなく、建設機械の端末識別子によって構成される部分構造体間の類似度を算出することができる。その結果、建設機械の稼動履歴のみに基づき、構造化された端末識別子の部分構造体と、建設機械の属性のみに基づき構造化された端末識別子の部分構造体との相関関係を得ることが可能となる。
第1,第2の実施の形態による相関構造抽出装置を示す構成図である。 第1,第2の実施の形態による類似度算出部および相関関係判断部の処理プログラムを示す流れ図である。 機械使用履歴データベースに格納されている情報の一例を示す説明図である。 機械属性データベースに格納されている情報の一例を示す説明図である。 第1の機械識別子グラフの一例を示す説明図である。 第2の機械識別子グラフの一例を示す説明図である。
以下、本発明の実施の形態による情報処理装置を、機械使用履歴と機械属性を並列に扱う手法を例に挙げて、添付図面に基づいて詳細に説明する。
図1に、本発明の第1の実施の形態による情報処理装置として、機械使用履歴と機械属性それぞれの中から相関をもった構造を抽出する、相関構造抽出装置1を示す。
ここで、機械使用履歴に基づき生成した部分構造体とは、機械使用履歴を用いて構築された機械識別子をノードとするグラフである。機械属性に基づき生成された部分構造体とは、機械属性を用いて構築された機械識別子をノードとするグラフである。これら2つのグラフが媒介することにより、相関構造抽出装置1は機械使用履歴と機械属性の中から、相関を持った構造を抽出する。相関をもった構造とは、例えば後述の段落[0025]で説明する、機械属性OHiと機械稼動履歴MAjである。なお、機械識別子とは建設機械の端末識別子のことである。
相関構造抽出装置1は、以下3つの情報を入力とし、機械使用履歴・機械属性の中から相関を持った構造を抽出する。相関構造抽出装置1に与える3つの入力は、機械使用履歴データベース12(以下、機械使用履歴DB12という)から取得する機械使用履歴OHと、機械識別子データベース11(以下、機械識別子DB11という)より取得する機械識別子IDと、機械属性データベース13(以下、機械属性DB13という)より取得する機械属性MAとである。
相関構造抽出装置1は、第1の機械識別子グラフ構築部14と、第2の機械識別子グラフ構築部15と、類似度算出部16と、相関関係判断部17とにより構成される。第1の機械識別子グラフ構築部14、第2の機械識別子グラフ構築部15、類似度算出部16および相関関係判断部17は、例えばプログラムに従って動作するCPU(演算処理装置)によって実現される。この場合、プログラムは、例えば相関構造抽出装置1が備える記憶装置(図示せず)に記憶される。CPUがこのプログラムを読込み、プログラムに従って第1の機械識別子グラフ構築部14、第2の機械識別子グラフ構築部15、類似度算出部16および相関関係判断部17として動作すればよい。
ここで、グラフとして表現可能な離散データは、機械使用履歴OHと、機械識別子IDと、機械属性MAのことである。構造化手段は、第1の機械識別子グラフ構築部14と第2の機械識別子グラフ構築部15の2つにより構成されている。
入力される離散データから相関を持った構造を抽出したい。そのため、入力される離散データには複数の種類がある。相関構造抽出装置1においては、機械使用履歴OHと機械属性MAの2種類がある。第1の機械識別子グラフ構築部14は、機械使用履歴OHから、複数の第1の機械識別子グラフ{Ai}を形成する。これが本発明における複数の部分構造体である。また同様に第2の機械識別子グラフ構築部15は、機械属性MAから、複数の第2の機械識別子グラフ{Bj}を形成する。これも本発明における複数の部分構造体である。
相関構造抽出装置1の実施例では、複数の部分構造体は、第1の機械識別子グラフ{Ai}と第2の機械識別子グラフ{Bj}の2種類の部分構造体により形成されている。第1の機械識別子グラフ{Ai}は、第1の機械識別子グラフAiの集合である。第2の機械識別子グラフ{Bj}は、第2の機械識別子グラフBjの集合である。便宜上、機械使用履歴OHにより生成された第1の機械識別子グラフを総称して{Ai}と記述し、個々のグラフをAiと記述する。その区別を行うためにインデックスiを付与している。同様に、機械属性MAにより生成された第2の機械識別子グラフを総称して{Bj}と記述し、個々のグラフをBjと記述する。その区別を行うためにインデックスjを付与している。第1の機械識別子グラフAiを生成した機械稼動履歴をOHiとし、第2の機械識別子グラフBjを生成した機械稼動履歴をMAjとする。第1の機械識別子グラフAiと第2の機械識別子グラフBjの類似度は、両者が共有するノードまたはリンクに基づき算出する。類似度算出手段は類似度算出部16により実現されている。相関判断手段は相関関係判断部17により実現されている。
次に、第1の機械識別子グラフ構築部14、第2の機械識別子グラフ構築部15、類似度算出部16および相関関係判断部17の機能と情報の流れを説明する。
第1の機械識別子グラフ構築部14は、機械使用履歴OHと機械識別子IDを受け取り、機械識別子IDをノードとし、機械使用履歴OHに基づきリンクを張ったグラフを構築する。その結果は機械識別子グラフAiとして類似度算出部16に渡される。
第2の機械識別子グラフ構築部15は、機械属性MAと機械識別子IDを受け取り、機械識別子IDをノードとし、機械属性MAに基づきリンクを張ったグラフを構築する。その結果は機械識別子グラフBjとして類似度算出部16に渡される。
類似度算出部16では、機械識別子グラフAiと機械識別子グラフBjを受け取り、機械識別子グラフAiと機械識別子グラフBjの両者における全てのグラフの組み合わせ(Ai,Bj)に対し、類似度を算出する。類似度の算出法の例は後述する。算出した類似度は相関関係判断部17に渡される。
相関関係判断部17は、各グラフの組み合わせ(Ai,Bj)それぞれについて、相関の有無を判定し、この判定結果を出力する。相関関係判断部17により、相関があると判定された場合には、相関構造抽出装置1はi番目の機械識別子グラフAiを生成した機械使用履歴OHiと、j番目の機械識別子グラフBjを生成した機械属性MAjをそれぞれ出力する。また、相関関係の判定結果である相関関係判断部17の出力も出力する。これにより、相関構造抽出装置1は、互いに相関関係を有する機械使用履歴の構造であるOHi、および機械属性の構造である機械属性MAjを抽出することができる。
次に第1の機械識別子グラフ構築部14、第2の機械識別子グラフ構築部15、類似度算出部16および相関関係判断部17の機能を実現するための実装について具体例を用いて説明する。
第1の機械識別子グラフ構築部14または第2の機械識別子グラフ構築部15は、例えば非特許文献1における手法を用いて機械識別子IDをノードとするグラフを作成する。非特許文献1における手法の具体例を、後述の段落[0051]から段落[0054]に記載した。
類似度算出部16は、機械識別子グラフAiと機械識別子グラフBjの両者における機械識別子のグラフ全ての組み合わせ(Ai,Bj)に対し、グラフの類似度を計算する。グラフの類似度の計算は、機械識別子グラフAiと機械識別子グラフBjで共通する機械識別子の個数をrijとし、機械識別子グラフAiと機械識別子グラフBjがrij個の機械識別子を共有する確率とする。
相関関係判断部17は、類似度算出部16により、機械識別子グラフAiと機械識別子グラフBj間の類似度を受け取る。この類似度が後述の段落[0045]で説明するような、極めて小さなある閾値と比べて小さい場合は、それぞれのグラフには相関があると判定し、それぞれのグラフを生成した機械使用履歴OHiと機械属性MAj間に相関があると判定する。
相関構造抽出装置1は、機械属性と機械使用履歴とそれらの相関関係の判定結果を出力する。出力される機械使用履歴は、第1の機械識別子グラフ構築部14から、i番目の機械識別子グラフAiを生成した機械使用履歴OHiである。出力される機械属性は、第2の機械識別子グラフ構築部15から、j番目の機械識別子グラフBjを生成した機械属性MAjである。相関関係の判定結果は相関関係判断部17の出力である。
次に、類似度の具体的な算出方法を例示する。類似度算出部16は、第1の機械識別子グラフ構築部14より第1の機械識別子グラフAiを受け取る。機械識別子グラフAiに属する機械識別子の集合XAiは、機械識別子DB11に含まれる全ての機械識別子の集合Xの部分集合XAi⊂Xである。XAiに属する任意の機械識別子をek,em,enとし、em,enを結ぶリンクを(em,en)と表し、機械識別子グラフAiをAi={ek;(em,en)|ek,em,en∈XAi}と表す。XAiの要素数をnaiと表す。以下、集合の要素の数を求める関数n()を用いて、n(XAi)=naiと表記する。同様に、機械識別子グラフBjについては、Bj={ek;(em,en)|ek,em,en∈XBj},n(XBj)=nbjである。また、機械識別子DB11に含まれる全ての機械識別子の集合Xの要素数はn(X)=nxとする。
類似度は、機械識別子がXから独立な一様分布に従い、機械識別子グラフAi,Bjに属するように選ばれたものだと仮定したときに、機械識別子グラフAi,Bj両方に機械識別子が共有される確率とする。即ち、機械識別子グラフAi,Bjがrij=n(XAi∩XBj)個の共通する機械識別子を持つ確率P(rij)を類似度とする。この値は二項係数を用いた数1の式により算出される。この類似度は、値が小さい程、より似ていることに注意する。
Figure 0006052900
次に、本発明において最も重要な類似度算出部16の処理を含む、第1の実施の形態による処理を、フローチャートを用いて詳しく説明する。
図2に、第1の実施の形態における機械識別子グラフAi,Bj同士の類似度を求める動作の例を示すフローチャートを示す。ここでは、第1の機械識別子グラフ構築部14と第2の機械識別子グラフ構築部15がそれぞれ複数の機械識別子グラフ{Ai},{Bj}を生成し、その全ての組み合わせ(Ai,Bj)に対して、類似度を算出する場合を考える。
図2の個々のステップについて説明する。まず対象となる全ての機械識別子の数nx=n(X)を数える(ステップ1)。続いてインデックスiを1に初期化する(ステップ2)。その後、第1の機械識別子グラフ構築部14より、1番目の機械識別子グラフA1={ek;(em,en)|ek,em,en∈XA1}を受け取る(ステップ3)。続いてノードの集合XA1⊂Xに属する機械識別子の数na1=n(XA1)を数える(ステップ4)。
次に、インデックスjを1に初期化する(ステップ5)。その後、第2の機械識別子グラフ構築部15より、1番目の機械識別子グラフB1={ek;(em,en)|ek,em,en∈XB1}を受け取る(ステップ6)。続いてノードの集合XB1⊂Xに属する識別子の数nb1=n(XB1)を数える(ステップ7)。
次に、集合XA1と集合XB1の両方に属する機械識別子の数r11=n(XA1∩XB1)の数を数える(ステップ8)。さらにここで、集合XA1と集合XB1が偶然r11個の機械識別子を共有する確率P(r11)を数1の式に基づいて計算する(ステップ9)。このとき、確率P(r11)をグラフA1とグラフB1の類似度とする。
次に、確率P(r11)が予め設定された閾値Sと比べて小さくなるかどうかを比較する(ステップ10)。その結果、確率P(r11)が閾値Sと比べて小さい場合(P(r11)<S)には、グラフA1とグラフB1の間には相関があると判定し、その結果を出力する(ステップ11)。一方、確率P(r11)が閾値Sと比べ大きい場合(P(r11)≧S)には、ステップ12でグラフA1とグラフB1の間には相関がないと判定する。ステップ11,12が終了すると、ステップ13に進み、インデックスjを1つ増加させる。
なお、閾値Sは、相関の有無が判定可能な適切な値が設定される。具体的には、閾値Sには、通常0.05/Ncや0.01/Nc等のように、非常に小さい値が用いられる。ここで、Ncは、Benffeniの補正数であり、インデックスi,jの全ての組み合わせの数を表す。
続くステップ14では、第2の機械識別子グラフ構築部15に対し、次のグラフB2が存在するか問い合わせ、グラフB2が存在するようであればステップ6へ戻り、処理すべきグラフBjがなくなるまで、ステップ6〜14の処理を繰り返す。処理すべきグラフBjがなくなった場合はステップ15へ進み、インデックスiを1つ増加させる。
続くステップ16では、第1の機械識別子グラフ構築部14に対し、次のグラフA2が存在するか問い合わせ、グラフA2が存在するようであればステップ3へ戻り、処理すべきグラフAiがなくなるまで、ステップ3〜16の処理を繰り返す。処理すべきグラフAiがなくなった場合はステップ17に到達し、一連の処理が終了する。
最後に、機械識別子グラフ構築部14,15および類似度算出部16の処理を、具体的な対象を与えて説明する。ここで対象とする具体例には、建設機械の稼動履歴とその属性を保持しているシステムを用いる。
機械使用履歴DB12は、図3に示すような情報を保持しており、稼動履歴データとして、例えば建設機械の端末識別子、稼動日時、稼動場所、負荷率などを保持している。機械属性DB13は、図4に示すような情報を保持しており、属性データとして、建設機械の端末識別子、所有者名、所有者業種、免許申請地などの情報を保持している。機械識別子DB11は、対象とする全ての建設機械の端末識別子を保持している。
第1の機械識別子グラフ構築部14は、例えば非特許文献1,2または特許文献1に提示されているような手法により実現される。ここでは以下に示すように非特許文献1で行われている処理を例に挙げて説明する。
第1の機械識別子グラフ構築部14は、機械使用履歴DB12と機械識別子DB11より、各機械識別子毎に負荷率が90%を超える稼動日を抽出する。この抽出したデータはグラフとして表現可能な離散情報に相当し、図5に示すような2部グラフを生成することができる。図5において、上段のノードには機械識別子が並んでおり、下段には負荷率90%を超える稼動日が並んでいる。これから、機械識別子と稼動日間にリンクを張り両者の関係を表すグラフを作成する。
2つの機械識別子の全ての組み合わせに対して、一方の機械識別子が持つ稼動日の数nai、他方の機械識別子が持つ稼動日の数nbj、両者の機械識別子が共有している稼動日の数rijをそれぞれ数える。機械識別子DB11より機械識別子の総数nxを得る。これらの数を用いて2つの機械識別子がrij個の共通した稼動日を持つ確率P(rij)を前述した数1の式に基づいて計算する。この確率P(rij)が前述の段落[0045]で説明したようなある閾値を下回れば、その2つの機械識別子には相関があると判定する。相関があると判定された2つの機械識別子間にはリンクを張り、機械識別子間の関係を表すグラフを作成する。このようにして機械識別子間の関係を表すグラフA1,A2が得られた。グラフA1,A2は、第1の機械識別子グラフAiに相当する。ここで、両者の機械識別子が共有している稼動日を、グラフAiを生成した機械稼動履歴OHiと呼ぶ。
第2の機械識別子グラフ構築部15も、第1の機械識別子グラフ構築部14と同様に以下のような処理を行っている。第2の機械識別子グラフ構築部15は、機械使用履歴DB12と機械識別子DB11より、各機械識別子毎に所有者業種を抽出する。この抽出したデータはグラフとして表現可能な離散情報に相当し、図6に示すような2部グラフを生成することができる。図6において、上段のノードには機械識別子が並んでおり、下段には所有者の業種が並んでいる。これから、機械識別子と所有者業種間にリンクを張り両者の関係を表すグラフを作成する。
2つの機械識別子の全ての組み合わせに対して、一方の機械識別子が持つ業種の数nai、他方の機械識別子が持つ業種の数nbj、両者の機械識別子が共有している業種の数rijをそれぞれ数える。機械識別子DB11より機械識別子の総数nxを得る。これらの数を用いて2つの機械識別子がrij個の共通した業種を持つ確率P(rij)を前述した数1の式に基づいて計算する。この確率P(rij)が前述の段落[0045]で説明したようなある閾値を下回れば、その2つの機械識別子には相関があると判定する。相関があると判定された2つの機械識別子間にはリンクを張り、機械識別子間の関係を表すグラフを作成する。このようにして機械識別子間の関係を表すグラフB1,B2が得られた。このとき、グラフB1,B2は、第2の機械識別子グラフBjに相当する。ここで、両者の機械識別子が共有している業種を、グラフBjを生成した機械属性MAjと呼ぶ。
所有者業種の種類の数は稼動日の数と比べてとても少ないことが予想されるため、前述した2つの機械識別子がrij個の共通した業種を持つ確率に差が出ないことも考えられる。このような場合には、機械識別子の重複を許し、同じ業種に登録されている機械識別子からなるグラフB1,B2,…,Bnを第2の機械識別子グラフBjとして用いることも可能である。この場合、グラフB1,B2,…,Bnは、それぞれ完全グラフであり、nは業種の数を示している。このようにリンクにより表現されるグラフの構造を反映させず、グラフに含まれるノードのみに着目する場合には、離散データを完全グラフ、またはその補グラフである空グラフとして表現することで対応する。
続いて、類似度計算手段に相当する類似度算出部16の処理を説明する。類似度算出部16の処理は、図2のステップ9に相当し、確率P(rij)を計算することである。まず初めに、インデックスi,jがそれぞれ1の場合について説明する。第1の機械識別子グラフ構築部14により形成された図5のグラフA1と、第2の機械識別子グラフ構築部15により形成された図6のグラフB1をそれぞれ取得する。この例の場合、グラフA1とグラフB1はそれぞれ機械識別子20001,20002のみを持ち、共有する機械識別子の個数r11は2個である(r11=2)。また、機械識別子の総数nx=1000、グラフA1の持つ機械識別子の数na1=2、グラフB1の持つ機械識別子の数nb1=2である。よって、2個の機械識別子を共有する確率P(2)は、数1の式に基づいて、P(2)≒0.000002となる。
また、インデックスがi=1,j=2の場合は、第1の機械識別子グラフ構築部14により形成された図5のグラフA1と、第2の機械識別子グラフ構築部15により形成された図6のグラフB2を取得する。この場合は、グラフA1は機械識別子20001,20002のみを持ち、グラフB1は機械識別子20003,20004のみを持つ。ゆえに、共有する機械識別子の個数r12は0個である(r12=0)。同様に、機械識別子の総数nx=1000、グラフA1の持つ機械識別子の数na1=2、グラフB2の持つ機械識別子の数nb2=2である。よって、0個の機械識別子を共有する確率は、数1の式に基づいて、P(0)≒0.996となる。同様にして、全てのインデックスi,jの組み合わせに対し、この確率P(rij)を計算する。
続いて、相関判断手段に相当する相関関係判断部17の処理を説明する。相関関係判断部17の処理は、図2のステップ10〜12に相当する。ここで行われるのは、通常有意検定と呼ばれる処理である。即ち、確率P(rij)と予め設定された非常に小さい閾値Sとを比べ、P(rij)<Sを満足した場合は、それに対応する機械識別子のグラフの組み合わせ(Ai,Bj)の間に相関があるものと判定し、その結果を出力する。今、グラフ{Ai}はi=1,2、グラフ{Bj}はj=1,2とそれぞれ2つしか形成されなかったとする。すると、iとjの組み合わせ総数NcはNc=4である。即ち、段落[0045]に記載の閾値は0.01/Nc=0.0025となる。A1とB1の類似度は約0.000002と閾値より小さいため、A1を生成したOH1={8月2日、8月4日、8月5日、8月6日}とB1を生成したMA1={ビル解体、基礎工事}には相関があると判定される。逆に、A1とB2については類似度が閾値よりも大きくなるため、相関がないと判定される。
かくして、第1の実施の形態によれば、機械使用履歴OHに基づき構造化した第1の機械識別子グラフAiを、機械属性MAに基づき構造化した第2の機械識別子グラフBjに帰依させて、これら2つのグラフAi,Bj間の関係の解釈を容易にすることが可能になる。これにより、特許文献1に記載されたシステムのように、予めどの建設機械の稼動履歴とどの建設機械の属性間に相関があるかの予想を立てて、建設機械同士の類似度を算出する必要がなく、構造化と類似度の算出の順番を逆転させることができる。そして、建設機械同士の類似度ではなく、機械識別子によって構成されるグラフAi,Bj間の類似度を算出することができる。その結果、機械使用履歴OHのみに基づいて構造化された第1の機械識別子グラフAiと、機械属性MAのみに基づき構造化された第2の機械識別子グラフBjとの間の相関関係を発見的に得ることが可能となる。AiとBj間に相関がある場合は、それを生成した機械使用履歴OHiと機械属性MAjを出力することにより、相関構造抽出装置1は相関を持った構造を抽出することができる。
なお、前記第1の実施の形態では、部分構造体は、機械識別子がリンクにより関係付けられている第1の機械識別子グラフAiと第2の機械識別子グラフBjである場合を例に挙げて説明した。しかし、本発明はこれに限らず、部分構造体は、機械識別子の部分集合XAi,XBjであってもよい。
次に、本発明の第2の実施の形態による情報処理装置として、機械使用履歴と機械属性の相関関係を判定する相関構造抽出装置21について、図1および図2を用いて説明する。第2の実施の形態の特徴は、類似度として、第1,第2の機械識別子グラフが共通するリンクを持つ確率を用いることにある。なお、第2の実施の形態では、前述した第1の実施の形態と同一の構成要素に同一符号を付し、その説明を省略するものとする。
第2の実施の形態による相関構造抽出装置21も、第1の実施の形態による相関構造抽出装置1と同様に、第1の機械識別子グラフ構築部14と、第2の機械識別子グラフ構築部15と、類似度算出部22と、相関関係判断部17とにより構成される。ここで、類似度算出部22は、類似度として、機械識別子グラフAi,Bjがrij個の共通するリンクを持つ確率P(rij)を用いる。この点で、類似度算出部22は、第1の実施の形態による類似度算出部16とは異なる。
具体的には、類似度算出部22は、機械識別子グラフAi,Bjの全てのリンクの数wx=n({(em,en)∈Ai} ∪ {(em,en)∈Bj})、機械識別子グラフAiの全てのリンクの数wai=n({(em,en)∈Ai})、機械識別子グラフBjの全てのリンクの数wbj=n({(em,en)∈Bj})としたとき、機械識別子グラフAi,Bjでrij=n({(em,en)∈Ai} ∩ {(em,en)∈Bj})個の共通するリンクを持つ確率P(rij)を、二項係数を用いた以下の数2の式に基づいて算出する。この確率P(rij)を、機械識別子グラフAi,Bj間の類似度とする。
Figure 0006052900
この場合、図2中のステップ9では、グラフAiとグラフBjでrij個の共通するリンクを持つ確率P(rij)を数2の式に基づいて計算する。このとき、確率P(rij)がグラフAiとグラフBjの類似度を示す。
かくして、第2の実施の形態でも、第1の実施の形態とほぼ同様の作用効果を得ることができる。
なお、前記各実施の形態では、離散データには、機械使用履歴OHと、機械識別子IDと、機械属性MAを適用した場合を例に挙げて説明したが、完全グラフを含めてリンクを持ったグラフとして表現可能な離散データでもよく、リンクを持たない空グラフとして表現可能な離散データでもよく、各種の離散データに適用可能である。
また、前記各実施の形態では、2つの部分構造体として第1,第2の機械識別子グラフAi,Bjの相関の有無を判定する構成としたが、3つ以上の部分構造体の相関の有無を判定する構成としてもよい。
また、前記第1の実施の形態による類似度算出部16は、機械識別子グラフAi,Bjが共通する機械識別子(ノード)を持つ確率を類似度として算出し、前記第2の実施の形態による類似度算出度22は、機械識別子グラフAi,Bjが共通するリンクを持つ確率を類似度として算出した。しかし、本発明はこれに限らず、類似度算出部は、例えば機械識別子グラフAi,Bjが共通するノードを持ち、かつ機械識別子グラフAi,Bjが共通するリンクを持つ確率を類似度として算出してもよい。
また、前記各実施の形態では、情報処理装置として、機械使用履歴と機械属性の相関関係を判定する相関構造抽出装置1,21を例に挙げて説明した。しかし、本発明はこれに限らず、例えば鉄道路線での乗降客の属性と乗車や降車の履歴との間の相関関係を判定する情報処理装置に適用してもよい。この場合、例えば乗降客の顧客識別子がノードとなり、乗降客の性別、年齢、職業等が属性データになり、乗車駅、降車駅、乗降日が履歴データになる。また、本発明は、自動販売機の設置場所属性と売上記録の履歴との間の相関関係を判定する情報処理装置に適用してもよく、グラフ同士の相関の有無を判定する各種の情報処理装置に適用することができる。
1,21 相関構造抽出装置(情報処理装置)
14 第1の機械識別子グラフ構築部
15 第2の機械識別子グラフ構築部
16,22 類似度算出部(類似度算出手段)
17 相関関係判断部(相関判断手段)

Claims (5)

  1. 完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、
    異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するノードを持つ確率を類似度として算出する類似度算出手段と、
    前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え
    前記類似度算出手段は、個々の前記部分構造体を構成するノードが、前記部分構造体の集合に属する全てのノードの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のノードを共有する確率を、複数の前記部分構造体が互いに共通するノードを持つ確率として算出することを特徴とする情報処理装置。
  2. 完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、
    異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するリンクを持つ確率を類似度として算出する類似度算出手段と、
    前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え、
    前記類似度算出手段は、個々の前記部分構造体を構成するリンクが、前記部分構造体の集合に属する全てのリンクの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のリンクを共有する確率を、複数の前記部分構造体が互いに共通するリンクを持つ確率として算出することを特徴とする情報処理装置。
  3. 完全グラフおよびその補グラフである空グラフを含む、グラフとして表現可能な複数種類の離散データから、前記グラフに属するノードの集合の部分集合または前記グラフの部分グラフを意味する部分構造体を、前記離散データの種類に応じて複数形成する構造化手段と、
    異なる種類の複数の前記部分構造体間で、全ての部分構造体の組み合わせに対し、複数の前記部分構造体が互いに共通するノードを持ち、かつ複数の前記部分構造体が互いに共通するリンクを持つ確率を類似度として算出する類似度算出手段と、
    前記部分構造体の組み合わせそれぞれについて、前記類似度が予め決められた所定の閾値よりも小さいか否かを判定し、前記類似度が予め決められた所定の閾値よりも小さい場合に、その部分構造体の組み合わせには相関があると判断する相関判断手段とを備え、
    前記類似度算出手段は、
    個々の前記部分構造体を構成するノードが、前記部分構造体の集合に属する全てのノードの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のノードを共有し、
    かつ、個々の前記部分構造体を構成するリンクが、前記部分構造体の集合に属する全てのリンクの中から、独立な一様分布に従い選び出されると仮定したとき、複数の前記部分構造体が同一のリンクを共有する確率を、
    複数の前記部分構造体が互いに共通するノードを持ち、かつ複数の前記部分構造体が互いに共通するリンクを持つ確率として算出することを特徴とする情報処理装置。
  4. 前記構造化手段は、2種類の前記部分構造体を形成し、
    一の種類の部分構造体は、属性データに基づいて形成され
    他の種類の部分構造体は、履歴データに基づいて形成されることを特徴とする請求項1,2または3に記載の情報処理装置。
  5. 前記構造化手段は、建設機械の端末識別子をノードとして持つ2種類の前記部分構造体を形成し、
    一の種類の部分構造体は、前記建設機械の属性データに基づいて形成され
    他の種類の部分構造体は、前記建設機械の稼動履歴データに基づいて形成されることを特徴とする請求項1,2または3に記載の情報処理装置。
JP2014041725A 2014-03-04 2014-03-04 情報処理装置 Expired - Fee Related JP6052900B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014041725A JP6052900B2 (ja) 2014-03-04 2014-03-04 情報処理装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014041725A JP6052900B2 (ja) 2014-03-04 2014-03-04 情報処理装置

Publications (2)

Publication Number Publication Date
JP2015166991A JP2015166991A (ja) 2015-09-24
JP6052900B2 true JP6052900B2 (ja) 2016-12-27

Family

ID=54257823

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014041725A Expired - Fee Related JP6052900B2 (ja) 2014-03-04 2014-03-04 情報処理装置

Country Status (1)

Country Link
JP (1) JP6052900B2 (ja)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229909B (zh) * 2017-12-14 2022-01-18 四川虹信软件股份有限公司 一种居民事务处理方法
JP6942104B2 (ja) * 2018-09-05 2021-09-29 ヤフー株式会社 判定装置、判定方法、および判定プログラム
CN113328428B (zh) * 2020-02-28 2024-04-19 阿里巴巴集团控股有限公司 电力系统拓扑结构的建置方法、校验方法及装置
JP7378001B1 (ja) * 2023-03-09 2023-11-10 株式会社 日立産業制御ソリューションズ マッピング装置、マッピング方法及びマッピングプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102789462B (zh) * 2011-05-18 2015-12-16 阿里巴巴集团控股有限公司 一种项目推荐方法及系统
US8949237B2 (en) * 2012-01-06 2015-02-03 Microsoft Corporation Detecting overlapping clusters

Also Published As

Publication number Publication date
JP2015166991A (ja) 2015-09-24

Similar Documents

Publication Publication Date Title
Ashayeri et al. Supply chain partners and configuration selection: An intuitionistic fuzzy Choquet integral operator based approach
Zhang et al. A fuzzy extended analytic network process-based approach for global supplier selection
JP6052900B2 (ja) 情報処理装置
Bae et al. Process mining, discovery, and integration using distance measures
WO2019149268A1 (zh) 一种互联网保险产品的营销方法和系统
Cao et al. Impacts of building information modeling (BIM) implementation on design and construction performance: A resource dependence theory perspective
Jenab et al. A graph-based model for manufacturing complexity
Bae et al. Process mining by measuring process block similarity
Greve et al. An assessment of methods to support the design of future robust modular product architectures
JP7407543B2 (ja) 情報処理方法、プログラム、及び情報処理装置
Ebrahimi et al. An epsilon-based data envelopment analysis approach for solving performance measurement problems with interval and ordinal dual-role factors
Rushton et al. Forecasting inventory for the state-wide pharmaceutical service of South Australia
Nazemi et al. Bi-objective facility location under uncertainty with an application in last-mile disaster relief
JP6389310B1 (ja) 提示装置、提示方法、提示プログラムおよび情報管理システム
JP6370454B1 (ja) 推定装置、推定方法および推定プログラム
Azadi et al. A new fuzzy goal directed benchmarking for supplier selection
KR20170114575A (ko) 이율배반 특성을 가지는 건설요소기술 및 제품에 대한 qfd-topsis 웹기반 품질평가 방법
Johnstone et al. A dynamic time warped clustering technique for discrete event simulation-based system analysis
Zare Mehrjerdi A multiple objective stochastic approach to vehicle routing problem
Chhabra et al. Sequential decision process for tradespace exploration by bounding probabilistic decision criteria using mean-risk analysis
CN116777528A (zh) 一种商品信息推荐方法、装置、计算机设备和存储介质
JP6298204B1 (ja) 算出装置、算出方法および算出プログラム
JP6351813B1 (ja) 選択装置、選択方法および選択プログラム
Maddulapalli et al. Sensitivity analysis for product design selection with an implicit value function
Eshtehardian et al. A Multiply Connected Belief Network approach for schedule risk analysis of metropolitan construction projects

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20151113

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20160822

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20160906

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20161107

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20161122

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20161124

R150 Certificate of patent or registration of utility model

Ref document number: 6052900

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees