JP6249027B2 - 関係データのためのデータモデル生成方法及びシステム - Google Patents

関係データのためのデータモデル生成方法及びシステム Download PDF

Info

Publication number
JP6249027B2
JP6249027B2 JP2016040852A JP2016040852A JP6249027B2 JP 6249027 B2 JP6249027 B2 JP 6249027B2 JP 2016040852 A JP2016040852 A JP 2016040852A JP 2016040852 A JP2016040852 A JP 2016040852A JP 6249027 B2 JP6249027 B2 JP 6249027B2
Authority
JP
Japan
Prior art keywords
category
variable
variables
entities
distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2016040852A
Other languages
English (en)
Other versions
JP2016192204A (ja
Inventor
ルウ フオン
ルウ フオン
チュンチェン リウ
チュンチェン リウ
ホゥ ワン
ホゥ ワン
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2016192204A publication Critical patent/JP2016192204A/ja
Application granted granted Critical
Publication of JP6249027B2 publication Critical patent/JP6249027B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Complex Calculations (AREA)

Description

本発明の実施形態は、一般に、データマイニングの分野に関し、より具体的には、関係データのためのデータモデルを生成する方法及びシステムに関する。
データマイニング技術の更なる発展とともに、エンティティ間の関係情報をモデル化することが、機械学習の分野における熱い話題となっている。エンティティ間の関係情報は、例えば、ソーシャルネットワークにおける人と人とのつながり、インターネット上のリンク関係、学術文献における引用関係、生命化学におけるタンパク質間の相互作用、及び他のエンティティ間の関係情報を意味する。一般に、エンティティ(オブジェクトとも呼ばれる)に関する2つの有限のセットが存在すると仮定しよう。すると、「関係」(relationship)という用語は、それら2つの有限のセットからのエンティティで構成されるエンティティ対の間のつながりを意味し得る。説明のため、それら2つの有限のセットに由来するエンティティは、それぞれ、第1カテゴリのエンティティ、第2カテゴリのエンティティと呼ばれる。このようにして、上記の「関係」の例は、ある映画(第2カテゴリのエンティティ)のある視聴者(第1カテゴリのエンティティ)の評価(関係)、あるレストラン(第2カテゴリのエンティティ)の客(第1カテゴリのエンティティ)の評価(関係)、及び、ある製品(第2カテゴリのエンティティ)のある消費者(第1カテゴリのエンティティ)の購入(関係)などを含み得る。
実際に、関係データのためのデータモデルを生成することはとても有用である。例えば、生成されたデータモデルで、エンティティがクラスタリングされてもよく、それにより、エンティティの嗜好の分析をガイドし、又は、エンティティを推奨する。しかし、データモデルの生成は、先行技術において、様々な観点から、困難に直面する。まず、エンティティをクラスタリングするとき、現実の社会的属性を考慮すると、あるエンティティは、第1カテゴリに属し、且つ、第2カテゴリにも属し得る。これは、生成されたデータモデルが異なるカテゴリ間で反復するエンティティのシナリオを考慮すべきであることを要する。
さらに、従来のデータは、常に同一のエンティティのカテゴリから収集され、サンプルは、往々にして、互いに独立である。それゆえ、従来のデータのクラスタリングは、1次元しか含まない。例えば、特定の集団を調査すること、彼らの生理学的情報(身長、体重等)及び彼らの社会的情報(教育の程度、職業等)を収集すること、そして、そのような情報に基づいて、その集団を分類し、それによって様々な条件において近い人々を1つのサブグループにグルーピングすること、が従来のクラスタリング問題である。しかし、大規模な関係データは、複数のエンティティ間の関係を記述するため、関係データのクラスタリングは、常に2以上の次元を含むことを必要とする。例えば、映画のシリーズに関し、一群の視聴者の評価を収集し、評価に基づいたユーザ及び映画の対等なクラスタリングをするシナリオにおいて、ユーザ及び映画の次元からの評価の対等なクラスタリングは関係データのクラスタリングでありつつ、映画に関するユーザの評価は関係データである。情報の利用はかなり包括的であるため、そのようなクラスタリングの結果は、ユーザ又は映画などの1次元からだけの評価のクラスタリングの結果よりも、常に良好である。
先行技術において、複数のカテゴリ間に跨がるデータの存在を表すことができる主要なモデリング方法は、混合メンバーシップ確率ブロックモデル(MMSB)である。しかし、この方法は、同一のカテゴリのエンティティ間の関係データをモデリングし得るに過ぎず、上記の第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係データを扱うことができないため、この方法には、大きな制限がある。
先行技術に存在する上記の課題を解決するために、本開示は、以下の解決法を提供する。
本発明の1つの観点によれば、関係データのためのデータモデルを生成する方法が提供され、前記関係データは、第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づき、前記方法は、前記データモデルを記述する複数の変数を判別することを含み、前記複数の変数は、前記第1カテゴリのエンティティと前記第2カテゴリのエンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、前記第1カテゴリのエンティティと前記第2カテゴリのエンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する。前記方法は、前記複数の変数のそれぞれに対する近似分布を選択することと、前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、をさらに含む。
本発明の別の実施において、前記第1変数及び第2変数は、ブール変数であり、前記複数の変数は、前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第1変数と前記第2変数の可変の組合せからの結合の影響を示す第3変数のセット、をさらに含む。
別の実施において、前記複数の変数は、前記第1カテゴリの前記複数のエンティティの中で、前記第1変数のセットからのそれぞれの第1変数を有する、前記第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、前記第2カテゴリの前記複数のエンティティの中で、前記第2変数のセットからのそれぞれの第2変数を有する、前記第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含む。
本発明の別の実施において、前記第1変数及び前記第2変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第3変数に対して選択される近似分布は、正規分布を含み、前記第4変数及び前記第5変数に対して選択される近似分布は、ベータ分布を含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第1変数及び前記第2変数に対する前記近似分布の前記パラメータを繰り返し更新することと、前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを、確率的順序で繰り返し更新すること、を含む。
本発明の別の実施において、関係データのためのデータモデルを生成する方法は、1つ以上の変数のそれぞれに対する先験的な分布を選択すること、をさらに含み、前記データモデルの前記収束の条件は、少なくとも、以下に基づいて判別される。
(1)前記1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差、及び、
(2)前記第1カテゴリ及び前記第2カテゴリの任意の所定のエンティティに対する、少なくとも前記第1カテゴリと前記第2カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第1変数及び第2変数の現在の値に基づいて取得される前記第1カテゴリと前記第2カテゴリの前記所定のエンティティ間の関係の尤度。
別の実施において、前記第1カテゴリは、前記第2カテゴリと異なる。
本発明の別の観点によれば、関係データのためのデータモデルを生成する装置が提供され、前記関係データは、第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づき、前記装置は、前記データモデルを記述する複数の変数を判別するように構成された判別ユニットを備え、前記複数の変数は、前記第1カテゴリのエンティティと前記第2カテゴリのエンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、前記第1カテゴリのエンティティと前記第2カテゴリのエンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する。前記装置は、前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、をさらに備える。
本発明の別の実施において、前記第1変数及び第2変数は、ブール変数であり、前記複数の変数は、前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第1変数と前記第2変数の可変の組合せからの結合の影響を示す第3変数のセット、をさらに含む。
別の実施において、前記複数の変数は、前記第1カテゴリの前記複数のエンティティの中で、前記第1変数のセットからのそれぞれの第1変数を有する、前記第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、前記第2カテゴリの前記複数のエンティティの中で、前記第2変数のセットからのそれぞれの第2変数を有する、前記第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含む。
本発明の別の実施において、前記第1変数及び前記第2変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第3変数に対して選択される近似分布は、正規分布を含み、前記第4変数及び前記第5変数に対して選択される近似分布は、ベータ分布を含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第1変数及び前記第2変数に対する前記近似分布の前記パラメータを繰り返し更新することと、前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む。
本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを、確率的順序で繰り返し更新すること、を含む。
本発明の別の実施において、前記関係データのためのデータモデルを生成する装置は、1つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニット、をさらに含み、前記データモデルの前記収束の条件は、少なくとも、以下に基づいて判別される。
(1)前記1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差、及び、
(2)前記第1カテゴリ及び前記第2カテゴリの任意の所定のエンティティに対する、少なくとも前記第1カテゴリと前記第2カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第1変数及び第2変数の現在の値に基づいて取得される前記第1カテゴリと前記第2カテゴリの前記所定のエンティティ間の関係の尤度。
別の実施において、前記第1カテゴリは、前記第2カテゴリと異なる。
本発明の様々な実施を通して、相互の重複する分類が実施されてもよく、それによって、現実の社会的な属性に従うが、その一方で、扱われる関係データにおいて関与するエンティティの種類及び量に必要条件はない。さらに、特定の変数の複数のセットを導入することによって、本発明の例示的な実施形態は、データモデルの生成プロセスをより効率的且つ正確にする。
本発明の実施形態の上記及び他の目的、特徴及び利点は、添付の図面を参照して、以下の詳細な説明を読むことを通して、より明らかになるであろう。添付の図面において、本発明の複数の実施形態が、例示的、非限定的な方法で説明され、同一の参照符号は、同一又は対応する要素を表す。
図1Aは、MMSBによって扱われ得るエンティティ間の関係の概略図を示す。 図1Bは、エンティティ間のより一般的な関係の概略図を示す。 図2は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する方法200を示す。 図3は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する装置300を示す。 図4は、本発明の実施形態の実施に適合された例示的な計算システム400のブロック図を示す。
以下、本発明の原理及び本質が、図面に描かれた複数の例示的な実施形態を参照して説明される。これらの実施形態は、当業者が本発明を理解し、さらに実施することを可能とするためにのみ提供され、本発明の範囲をいかなる態様においても限定することは意図されていないことを理解されたい。さらに、本開示において、同一の変数又は記号は同一の意味を表し、繰り返し説明されない。
背景技術において説明されたように、カテゴリ間の重複状態を扱い得るモデリング方法MMSBは、モデリングされるエンティティに特定の必要条件を有する。図1Aは、MMSBによって扱われ得るエンティティ間の関係の概略図を概略的に示す。図1A中の行及び列は、関係に関する2つの集団(parties)からのエンティティを表し、黒の格子は、対応する行及び列のエンティティが、それらの間に関係を有することを表し、一方、白の格子は、対応する行及び列が、それらの間に関係を有しないことを表す。図1Aにおいて、行のエンティティ及び列のエンティティは、同一の種類のエンティティであり(例えば、ユーザ)、量のエンティティの数は、列のエンティティの数と等しいこと(例えば、それらは両方ともJ個である)が理解される。このシナリオは、コミュニティ内のメンバ間の関係を記述するときに、一般に生じる。しかし、現実の社会においては、より複雑な関係を有する大量のデータが存在する。
例えば、図1Bは、エンティティ間のより一般的な関係の概略図を示す。同様に、図1Bの行及び列は、それぞれ、関係に関する2つの集団からのエンティティを表し、黒の格子は、対応する行及び列のエンティティが、関係を有することを表し、一方、白の格子は、対応する行及び列が、関係を有しないことを表す。図1Bに示されているように、両方の集団のエンティティは、異なる種類のエンティティであってもよく(例えば、客とレストラン)、行エンティティと列エンティティの数は、同じでも異なっていてもよい(例えば、I人の客とJ個のレストラン)ことがわかる。図1Bにおいて説明された関係データが、図1Aにおいて説明された関係データより普遍的であることは、容易に理解されよう。しかし、先行技術は、関係データの効率的なモデリング方法及び分類間の重複するシナリオを表現する能力を欠いている。
図2は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する方法200を示し、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係を記述するため、関係データは、第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づく。第1カテゴリは、第2カテゴリと同一であってもよく、異なっていてもよいことに注意されたい。それに対応して、第1カテゴリのエンティティ数は、第2カテゴリのエンティティと同一であってもよく、異なっていてもよい。言い換えると、方法200は、扱われる関係データに関するカテゴリ及びエンティティ数について制限がない。
説明の便宜上、第1カテゴリのエンティティ数Iと第2カテゴリのエンティティ数Jとの間の関係データを表すために、I×Jの行列Xが用いられる。
Figure 0006249027
個々の要素xijは、第1カテゴリのi番目のエンティティと第2カテゴリのj番目のエンティティとの間の関係を表す。値に関して、xijは、2進数、自然数又は実数などであり得る。例えば、関係データが食事のために客がレストランに行ったことがあるか否かを記述するシナリオにおいて、xijは、2進数であり得る一方、関係データが客のレストランに対する評価を記述するシナリオにおいて、xijは、自然数であり得る、などである。当業者においては、上記のxijの値の説明は、ただ例示的であり、本発明に対する限定ではないことを理解されたい。
図2に示されているように、方法200は、データモデルを記述する複数の変数を判別するステップS210を含む。ここで言及される複数の変数は、第1変数のセット及び第2変数のセットを含んでもよく、第1変数のセットにおけるそれぞれの第1変数は、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に影響を及ぼす、第1カテゴリのエンティティの特徴を示し、他方、第2変数のセットにおけるそれぞれの第2変数は、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に影響を及ぼす、第2カテゴリのエンティティの特徴を示す。第1変数及び第2変数の値は、実際の条件に応じて、整数、実数、又は、ブール値などの他の種類であってもよいことに注意されたい。本発明は、この点において、限定されない。
客のレストランに対する評価の例を考えよう。客のレストランに対する評価に影響を及ぼす要因は、複数であり得る。これらの要因は、例えば、客側の要因、例えば、「若い」又は「年配の」、「高度に教育を受けた」又は「無教育の」、「南部人」又は「北部人」など、を含む。同様に、これらの要因は、レストラン側の要因、例えば、「駐車場のある」又は「駐車場のない」、「良好な環境」又は「劣悪な環境」など、をも含む。エンティティを区別し、エンティティのクラスタリングを促進し得る要因が、本明細書において、エンティティの「特徴」と呼ばれていることを、当業者は理解すべきである。それゆえ、客i
Figure 0006249027

のレストランj(1≦j≦J)に対する評価xijに影響を及ぼし得る特徴は、K個の第1変数のセットU=(u,u,u,…u)として表され得る。特定の例において、客と、関係する第1変数のセットとの間の関係は、例えば、以下のI×Kの行列で表され得る(I人の客に対してK個の第1変数)。
Figure 0006249027
同様に、客i(1≦i≦I)のレストランj(1≦j≦J)に対する評価xijに影響を及ぼし得るレストランの特徴は、L個の第2変数のセットV=(V,V,V,…,V)として表され得る。特定の例において、レストランと、関係する第2変数との間の関係は、一例として、以下のJ×Lの行列で表され得る(J個のレストランに対してL個の第2変数)。
Figure 0006249027
ステップS210は、第1変数のセット及び第2変数のセットのみを説明しているが、このデータモデルの複数の変数は、必要に応じて、他の変数を含んでもよく、含まなくてもよいと理解されるべきことに注意されたい。本発明は、この点において、限定されない。
次に、方法200は、複数の変数のそれぞれに対する近似分布(以下、qによって表される)を選択するため、ステップS220に進む。計算を容易にするため、選択された近似分布は、通常、より自然な、単純な分布である。本発明の別の実施形態において、それぞれの第1変数uik及びそれぞれの第2変数vijのために選択される近似分布は、ベルヌーイ分布であってもよい。すなわち、
Figure 0006249027

である。
Figure 0006249027

及び
Figure 0006249027

は、それぞれ、第1変数及び第2変数に対する近似分布を表し、
Figure 0006249027

は、それぞれ、対応する分布におけるパラメータを表し、1≦i≦I、1≦k≦K、1≦j≦J、1≦l≦Lである。
例において、第1変数及び第2変数のための近似分布としてベルヌーイ分布が選択されるものの、当業者においては、本発明はそれに限定されず、他の分布の選択も本発明の範囲内であることを理解されたい。
次に、方法200は、データモデルが収束するまで、近似分布のパラメータを繰り返し更新するため、ステップS230に進む。
反復更新の実施の一例は、勾配上昇アルゴリズムを用いて実現され、そして、当業者においては、反復更新の他の既存のアルゴリズムもまた本発明の概念に含まれることを理解されたい。
さらに、データモデルが収束するか否かを判別するための基準は、複数の異なる方法を採用し得る。例えば、本発明のさらなる実施例による、例示的であるが非限定的な例において、まず、先験的な分布(以下、pによって表される)が、ステップS210において判別される複数の変数におけるそれぞれの変数に対して選択され得る。一実施において、未だ、ベルヌーイ分布は、先験的な分布として、第1変数のセットにおけるそれぞれの第1変数及び第2変数のセットにおけるそれぞれの第2変数のために選択されてもよく、すなわち、
Figure 0006249027

である。
p(uik)及びp(vjl)は、それぞれ、第1変数及び第2変数に対する先験的な分布を表し、π及びτは、それぞれ、対応する分布におけるパラメータを表し、それらの値は、実証的な値であってもよく、又は、特定の条件に応じて設定されてもよく、1≦i≦I、1≦k≦K、1≦j≦J、1≦l≦Lである。
これに基づいて、データモデルの収束条件は、少なくとも以下の内容に基づいて判別され得る。
(1)複数の変数におけるそれぞれの変数の先験的な分布とそれぞれの近似分布との間の差、及び、
(2)第1カテゴリ及び第2カテゴリの任意の所定のエンティティに対し、少なくとも、第1カテゴリ及び第2カテゴリの所定のエンティティ間の関係に影響する第1変数及び第2変数の現在の値に基づいて得られた第1カテゴリと第2カテゴリとの所定のエンティティ間の関係の尤度。
それぞれの変数の先験的な分布とそれぞれの近似分布との間の差は、一緒にデータモデルの収束条件に影響を及ぼし、複数の変数が、第1変数のセット及び第2変数のセット以外の変数をさらに含むとき、尤度を取得することは、他の変数によっても影響され得ることを当業者に理解されたいが、それは、例とともに詳細に説明される。
これまでで、方法200は終了する。
第1変数のセット及び第2変数のセットを導入してデータモデルを記述することによって、このデータモデルによって扱われ得る関係データに関するエンティティの種類及び数は限定されず、従来のMMSB法における不備を克服することが、一方で理解され得るが、他方で、データモデルが収束する時に判別された、第1変数のセット及び第2変数のセットを学習した後で、関係する第1変数の値に従って、第1カテゴリのエンティティを分類することは容易であり得、関係する第2変数の値に従って、第2カテゴリのエンティティが分類される。さらに、現実の社会的な属性により適合する、反復するエンティティがそのような分類に跨がって存在することが許容される。
例えば、客のレストランに対する評価の上記の例において、客1及び客2が「年齢」によって1つのグループに分類され得る一方、客3は、別のグループに分類され、又は、客1及び客3が「学歴」によって1つのグループにグルーピングされ得る一方、客2は、別のグループに分類され、又は、客1及び客3が「出身地」によって1つのグループに分類され得る一方、客2は別のグループに分類される。
同様に、レストラン1及びレストラン2が「駐車のしやすさ」によって1つのグループに分類され得る一方、レストラン3は、別のグループに分類され、又は、レストラン1及びレストラン3が「環境」によって1つのグループに分類され得る一方、レストラン2は、別のグループに分類され、又は、レストラン2及びレストラン3が「味」によって1つのグループに分類される一方、レストラン1は、別のグループに分類される。
これらの分類結果は、第1カテゴリのエンティティ及び第2カテゴリのエンティティと、それらの対応する特徴との間の関係を考慮しつつ得られるので、現実の社会的な属性に整合するだけでなく、より高い精度も有し、それゆえ、広範な応用性を有する。例えば、関係データに含まれる第1カテゴリのエンティティと第2カテゴリのエンティティとが未だ関係を有しないとき(例えば、客4がレストラン5を評価していない)、それらの関係は、予測され得る。又は、新たに第1カテゴリの新規のエンティティが追加されるとき、関係する特徴に従って分類が実行され得て、それにより、第1カテゴリの新たに追加されたエンティティに対して第2の種類のエンティティを推奨する。
上述のように、データモデルの複数の変数は、第1変数のセット及び第2変数のセット以外の変数を含み得る。本発明の別の実施形態によると、第1変数及び第2変数がブール値であるとき、当該複数の変数は、第3変数をさらに含んでもよく、第3変数のそれぞれは、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に基づく、第1変数と第2変数の可変の組合せの結合の影響を示すためのものである。
第1変数及び第2変数がブール変数であるとき、客と、関係する第1変数のセットとの間の関係は、一例として、以下のI×Kの行列であり得る(I人の客に対してK個の第1変数)。
Figure 0006249027
レストランと、関係する第2変数との間の関係は、一例として、以下のJ×Lの行列であり得る(J個のレストランに対してL個の第2変数)。
Figure 0006249027
第1変数/第2変数の値をブール型に限定することにより、第1変数/第2変数の値は、第2カテゴリのエンティティと関係(例えば、評価)があるとき、第1カテゴリのエンティティが、どの第1変数及びどの第2変数によって影響されるか(例えば、値「1」は、その変数によって影響を受けることを示し、値「0」は、その変数によって影響を受けないことを示す)を容易且つ明確に示すことができる。このように、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に関する第1変数と第2変数との結合影響度は、それぞれ、第3変数のセットWによって表され、Wは、以下のK×Lの行列として示され得る。
Figure 0006249027
k1は任意の実数値であってもよく、客とレストランとの間の関係を構築する場合に第1変数uと第2変数uの対から受ける結合の影響を示す。例えば、上記の客のレストランに対する評価の例において、w11は、レストランを評価する客に対する、「若い」及び「駐車場のある」からの結合の影響を示す。
第3変数を導入した後、ステップS220において、それぞれの変数に対する近似分布を選択することは、第3変数のセットWにおける、それぞれのwklに対する近似分布を選択することをも含み、本発明の別の実施において、wklに対する近似分布を選択する一例は、例えば、正規分布、すなわち、
Figure 0006249027

である。
ここで、
Figure 0006249027

は、第3変数の近似分布を表し、
Figure 0006249027

及び
Figure 0006249027

は、それぞれ、近似分布のパラメータを表し、1≦k≦K、1≦l≦Lである。
第3変数のセットWを導入するデータモデルにおいて、データモデルが収束するか否かを判別するための基準は、前述したことに基づく第3変数をもさらに考慮して調節されるべきことに注意されたい。例えば、第3変数に対して、先験的な分布が選択され得る。一実施において、第3変数に対する先験的な分布として、正規分布が利用され得る。すなわち、
Figure 0006249027

である。
ここで、p(wk1)は、第3変数の先験的な分布を表し、σ は、当該分布におけるパラメータであり、Wの二乗差分を示す。ここで、σ は、実証的な値を利用し、1≦k≦K、1≦l≦Lである。
ここで、データモデルの収束条件のための基礎としての内容(1)(すなわち、先験的な分布とそれぞれの変数の近似分布との差)は、先験的な分布とその第3変数の近似分布との間の差を含むべきであり、データモデルの収束条件のための基礎としての内容(2)(すなわち、尤度値の計算)において、第1カテゴリの所定のエンティティと第2カテゴリの所定のエンティティとの間の関係の尤度の計算は、変数の第3セットにおけるそれぞれの変数の値をもさらに考慮すべきである。
上述のように、第1変数及び第2変数をブール値型として設定することにより、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に関する第1変数及び第2変数の可変の組合せからの結合の影響を記述する第3変数のセットを導入する一方で、第1変数及び第2変数の形式が単純化され、機械学習のためのそれぞれの変数の意味がより厳密になり、それにより、データモデルの生成効率を促進する。
さらに、本発明のさらなる実施形態によると、データモデルの複数の変数は、必要に応じて、第4変数のセット及び第5変数のセットを含んでいてもよく、第4変数は、第1カテゴリの複数のエンティティの中で、第1変数のセットからのそれぞれの第1変数を有する、第1カテゴリのエンティティのパーセンテージを示し、それぞれの第5変数は、第2カテゴリの複数のエンティティの中で、第2変数のセットからのそれぞれの第2変数を有する、第2カテゴリのエンティティのパーセンテージを示す。
第4変数は、特定の第1変数を有する第1カテゴリのエンティティを反映する統計値であるため、第4変数のセットにおけるそれぞれの第4変数は、第1変数に対応し、それゆえ、第4変数のセットは、π=(π,π,π,…π)と表され得る。同様に、第5変数は、特定の第2変数を有する第2の種類のエンティティを反映する統計値であるため、第5変数のセットにおけるそれぞれの第5変数は、第2変数に対応し、それゆえ、第5変数のセットは、τ=(τ,τ,τ,…τ)と表され得る。
第4変数及び第5変数を導入する場合、ステップS220において、それぞれの変数に対する近似分布の選択は、第4変数及び第5変数に対する近似分布をもそれぞれ選択し得る。例えば、第4変数及び第5変数に対して、ベータ分布が選択され得る。すなわち、
Figure 0006249027

である。
ここで、
Figure 0006249027

及び
Figure 0006249027

は、それぞれ、第4変数及び第5変数に対する近似分布を表し、ak1,ak2,bl1,bl2は、対応するベータ分布のパラメータであり、1≦k≦K、1≦l≦Lである。
当業者においては、第4変数及び第5変数のための近似分布としてベータ分布を選択することが例において説明されているが、本発明は、それに限定されず、他の分布を選択することも本発明の範囲内であることを理解されたい。
同様に、第4変数のセットπ及び第5変数のセットτを導入したデータモデルにおいて、データモデルが収束するか否かを判別するための基準は、上述されたことに基づいて、第4変数及び第5変数をも考慮して調整されるべきであることに注意されたい。例えば、先験的な分布が、第4変数及び第5変数に対して選択され得る。実施において、ベータ分布が、第4変数及び第5変数に対する先験的な分布として利用され得る。すなわち、
Figure 0006249027

である。
p(π)は、第4変数の先験的な分布を示し、p(τ)は、第5変数の先験的な分布を示し、K及びLは、対応するベータ分布におけるパラメータであり、ここで、K及びLは、実証的な値を利用する。ここで、内容(1)(すなわち、先験的な分布とそれぞれの変数の近似分布との差)は、先験的な分布と第4変数及び第5変数のための近似分布との間の差を含むべきである。
それぞれ、第1変数及び第2変数と関連する統計値である、第4変数及び第5変数を導入することによって、第1変数及び第2変数を更新するのに役立ち、データモデルの生成効率をさらに促進する。
さらに、本発明の別の実施形態によると、第1変数から第5変数までの5つのカテゴリのデータモデルを生成するプロセスにおいて、方法200のステップS230で、それぞれの近似分布のパラメータを繰り返し更新することは、第1変数及び第2変数に対応する近似分布のパラメータを繰り返し更新することと、第3変数、第4変数及び第5変数に対する近似分布のパラメータを繰り返し更新することと、をさらに含み得る。
言い換えると、第1変数及び第2変数に対する近似分布のパラメータは、第3から第5変数に対する近似分布のパラメータより前に更新される。そのような更新順序は、更新プロセス中、それぞれの変数の近似分布のパラメータの他の変数に対する影響を十分に考慮し、データモデルの生成効率をさらに促進するのに役立つ。
本発明のまた別の実施形態によれば、方法200のステップS320において、近似分布のためのパラメータを繰り返し更新することは、第3変数、第4変数及び第5変数に対する近似分布のパラメータを確率的順序で更新することをも含み得る。確率的更新順序で、パラメータ更新プロセス中、局所最適値に陥ることが防止され得、データモデルの生成精度をさらに向上する。
本発明をより深く理解するために、特定の実施の流れが以下に説明される。流れの中で、データモデルのために判別された複数の変数は、第1から第5の変数のセットを含むことを仮定しよう。さらに、流れの中で、全ての変数及び関連するパラメータは、上述されたことと整合し、ここで詳述されない。当業者においては、以下の説明が単に説明のための実施であり、本発明のいかなる観点に対する限定でもないことをも理解されたい。
(i)まず、第1変数のセットにおけるK個の第1変数及び第2変数のセットにおけるL個の第2変数に対して、異なる値が設定される。例えば、K=Kmin,…,Kmax、L=Lmin,…,Lmaxであり、Kmin、Kmax、Lmin及びLmaxの特定の値は、実際の関係データに応じて設定される。
(ii)次に、K及びLのそれぞれの値の組合せに対して、以下のステップが実行される。
(a)先験的な分布に関するパラメータα、β及びσ、近似分布に関するパラメータ
Figure 0006249027

を初期化する。当業者においては、それぞれのパラメータが確率的な値で初期化されてもよく、それぞれのパラメータに対して実証的な値が初期化されてもよいことを理解されたい。本発明は、この点において、限定されない。
(b)収束基準が満たされたか否かを判別し、収束基準が満たされていないとき、ステップ(b−1)から(b−4)を実行する。収束基準は、例えば、エビデンス下限(Evidence Lower Bound、ELBO)Lを導入することによって判別され得る。すなわち、計算されたELBO Lを最大化する。
Figure 0006249027
ここで、Eは、近似分布qの期待値を表し、H(q(Λ))は、エントロピーを表し、p(X,Λ|θ)は、結合分布を表し、q(Λ)は、近似分布を表し、それぞれ、
Figure 0006249027

と展開され得る。
ここで、α及びβは、第1及び第2変数の望ましい数を制御するためのインディアビュッフェプロセス(India Buffet Process、IBP)に対する先験的なパラメータであり、σ は、Wの分散である。実施中、Wは、先験的に、0平均のガウシアン(Gaussian)を利用してもよい。
確率的最適化技術をさらに導入することによって、ELBOの計算は、以下のように展開され得る。
Figure 0006249027
ここで、i’及びj’は、収集されたエンティティ対であり(ステップb−1において詳しく説明される)、k=1,…,K、l=1,…,Lである。このようにして、モデルの収束条件は、Li’j’を最大化することに変換され得る。
(b−1)関係データXにおけるエンティティ対のサブセットSを収集し、サブセット中のそれぞれの要素は、関連するエンティティ対の間の関係を表す。ここで、i’及びj’は、収集されたエンティティ対を示し、i’〜Uniform(1,…,I)、j’〜Uniform(1,…,J)である。
(b−2)サブセットS中の任意のエンティティ対i’及びj’に対し、パラメータ
Figure 0006249027

を更新する。例示的な更新方法は、まず、勾配が生じるかもしれないパラメータを得て、その後、従来の勾配の交互上昇を利用するか、又は、2つのパラメータに関するノイズ自然勾配
Figure 0006249027

及び
Figure 0006249027

を0に設定し、そして、更新された
Figure 0006249027

を取得するために方程式を解く。
(b−3)以下のパラメータのノイズ自然勾配(ここで、まだ勾配は正確な値ではないため、「ノイズ自然勾配」と呼ばれる)を計算する。
Figure 0006249027

Figure 0006249027

Figure 0006249027

ここで、k=1,…,Kであり、l=1,…,Lである。
(b−4)全てのk及びlに対し(k=1,…,K、l=1,…,L)、パラメータa、b及びφを更新することは、
Figure 0006249027

であり、λは、所定のステップ長であり、λ=(τ+t)−κと表され得る。この式において、tは、繰り返し回数を表し、その値は、0以上の整数であり、κは、繰り返し速度を制御するためのパラメータを表し、予め設定された固定値であり、好ましくは、0.5から1の間であり、τは、ステップの長さに対するtの値からの影響を調節するためのものであり、これも予め設定された固定値であってもよく、好ましくは、0以上の小さい実数に定められる。
(iii)計算されたELBOを最大化するK及びLを選択し、パラメータ値を関連づけ、それによって、データモデルを構築する。
以下、本発明の例示的な実施形態による関係データのためのデータモデルを生成する装置300をさらに説明する図3を参照しよう。
図面に示されているように、装置300は、判別ユニット301と、近似分布選択ユニット302と、更新ユニット303とを備え、判別ユニット301は、データモデルを記述する複数の変数を判別するように構成され、複数の変数は、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に影響を及ぼす第1カテゴリのエンティティの特徴を表す第1変数のセットと、第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に影響を及ぼす第2カテゴリのエンティティの特徴を表す第2変数のセットと、を含む。近似分布選択ユニット302は、複数の変数のそれぞれに対する近似分布を選択するように構成されている。更新ユニット303は、データモデルが収束するまで、近似分布のパラメータを繰り返し更新するように構成されている。
本発明の別の実施形態において、第1変数及び第2変数は、ブール値であり、複数の変数は、第1変数と第2変数との可変の組合せから第1カテゴリのエンティティと第2カテゴリのエンティティとの間の関係に及ぼす結合の影響を示す第3変数のセットをさらに含む。
本発明の別の実施形態において、複数の変数は、第1カテゴリの複数のエンティティの中で、第1変数のセットからのそれぞれの第1変数を有する、第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、第2カテゴリの複数のエンティティの中で、第2変数のセットからのそれぞれの第2変数を有する、第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含み得る。
本発明の別の実施形態において、第1変数及び第2変数に対して選択された近似分布は、ベルヌーイ分布を含み、第3変数に対して選択された近似分布は、正規分布を含み、第4変数及び第5変数に対して選択された近似分布は、ベータ分布を含む。
本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、勾配上昇アルゴリズムを用いて近似分布のパラメータを繰り返し更新することをさらに含む。
本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、第1変数及び第2変数に対する近似分布のパラメータを繰り返し更新することと、第3変数、第4変数及び第5変数に対する近似分布のパラメータを繰り返し更新することと、をさらに含む。
本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、第3変数、第4変数及び第5変数に対する近似分布のパラメータを、確率的順序で更新することを含む。
本発明の別の実施形態において、装置300は、1つ以上のそれぞれの変数に対する先験的な分布を選択するように構成された選択ユニットをさらに備え、データモデルの収束条件は、少なくとも以下に基づく。
(1)1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差、及び、
(2)第1カテゴリ及び第2カテゴリの全ての所定のエンティティに対する、少なくとも第1カテゴリ及び第2カテゴリの所定のエンティティ間の関係に影響する第1変数及び第2変数の現在の値に基づいて取得された第1カテゴリ及び第2カテゴリの所定のエンティティ間の関係の尤度。
別の実施形態において、第1カテゴリは、第2カテゴリと異なる。
以下、本発明の実施形態を実施するように適合された計算機システム400の概略ブロック図が提示されている図4を参照しよう。例えば、図4に示されている計算機システム400は、上述された関係データのためのデータモデルを生成する装置300のそれぞれの部品を実施するため、又は、上述された関係データのためのデータモデルを生成する方法200のそれぞれのステップを充実させ(solidify)、若しくは実施するために用いられ得る。
図4に示されているように、計算機システムは、CPU(中央処理装置)401、RAM(ランダムアクセスメモリ)402、ROM(読み取り専用メモリ)403、システムバス404、ハードディスクコントローラ405、キーボードコントローラ406、シリアルインタフェースコントローラ407、パラレルインタフェースコントローラ408、ディスプレイコントローラ409、ハードディスク410、キーボード411、シリアル外部デバイス412、パラレル外部デバイス413及びディスプレイ414を含み得る。これらのデバイスの中で、システムバスに接続されるものは、CPU401、RAM402、ROM403、ハードディスクコントローラ405、キーボードコントローラ406、シリアルコントローラ407、パラレルコントローラ408及びディスプレイコントローラ409を含む。ハードディスク410は、ハードディスクコントローラ405に接続され、キーボード411は、キーボードコントローラ406に接続され、シリアル外部デバイス412は、シリアルインタフェースコントローラ407に接続され、パラレル外部デバイス413は、パラレルインタフェースコントローラ408に接続され、且つ、ディスプレイ414は、ディスプレイコントローラ409に接続されている。図4に示されている構造ブロック図は、例示目的のためだけに描かれ、本発明の範囲を限定するためではないことを理解されたい。いくつかの場合においては、特定の状況に応じて、複数のデバイスが追加され、又は、除去されてもよい。
上述のように、システム300は、純粋なハードウェア、例えば、チップ、ASIC、SOCなどとして実施されてもよい。そのようなハードウェアは、計算機システム400に統合され得る。さらに、本発明の実施形態は、コンピュータプログラム製品の形で実施されてもよい。例えば、図2を参照して説明された方法200は、コンピュータプログラム製品を通じて実施されてもよい。コンピュータプログラム製品は、RAM402、ROM403、ハードディスク410及び/若しくは図4に示されている任意の適切な記憶媒体に保持されてもよく、又は、ネットワークを通じて適切な場所から計算機システム400上にダウンロードされてもよい。コンピュータプログラム製品は、適切な処理デバイス(例えば、図4に示されているCPU401)によって実行され得るプログラム命令を含むコンピュータコードセクションを含み得る。コンピュータプログラム命令は、少なくとも方法200のステップを実施するための命令を含み得る。
本発明の本質及び原理が、複数の好適な実施形態とともに説明された。本発明による関係データのためのデータモデルを生成する方法及びシステムは、先行技術に対して多数の利点を有する。例えば、本発明において生成されたデータモデルを通して、相互に重複する分類が実現され得、それによって、現実の社会的な属性に整合する一方、扱われる関係データに関するエンティティの種類及び量に必要条件は存在しない。さらに、特定の変数の複数のセットを導入することによって、本発明の例示的な実施形態は、データモデルの生成プロセスをより効率的且つ正確にする。
実施形態は、ハードウェア、ソフトウェア又はソフトウェアとハードウェアの組合せによって実施され得ることに注意されたい。ハードウェアのセクションは、特定のロジックを用いて実現され得、ソフトウェアの部分は、メモリに格納され、且つ、適切な命令実行システム、例えば、マイクロプロセッサ又は特別に設計されたハードウェアによって実行され得る。この技術分野における通常を有する者は、上記のデバイス及び方法が、コンピュータ実行可能な命令を用いて実現され得、且つ/又は、プロセッサ制御コード、例えば、磁気ディスク、CD若しくはDVD−ROMなどの担体媒体、読み取り専用メモリ(ファームウェア)などのプログラム可能なメモリ、又は、電気信号キャリアなどのデータキャリア、に含まれ得ることを理解するであろう。本発明の装置及びそのモジュールは、超大規模集積回路若しくはゲートアレイなどの半導体、ロジックチップ、トランジスタなどの半導体、又は、フィールドプログラマブルゲートアレイ、プログラム可能なロジックデバイスなどのプログラム可能なハードウェアデバイスのハードウェア回路によって実現され、若しくは、様々な種類のプロセッサによって実行されるソフトウェアによって実現され、又は、上記のハードウェア回路とソフトウェアとの組合せ、例えば、ファームウェアによって実現され得る。
本明細書の記載において説明された通信ネットワークは、ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、IPプロトコルに基づくネットワーク(例えば、インターネット)及びピアツーピアネットワーク(例えば、アドホックピアネットワーク)を含むが、これらに限定されない、様々な種類のネットワークを含み得る。
装置のいくつかのモジュール又はサブモジュールが以上で詳細に説明されたが、そのような分割は、限定的でないことに注意されたい。実際、本発明の実施形態によれば、上述の2つ以上のモジュールの特徴及び機能が1つのモジュール内で具体化され得る。今度は、上述の1つのモジュールの特徴及び機能が、具体化される複数のモジュールにさらに分割され得る。
さらに、本発明による方法の動作は、図面において、特定の順序で説明されたが、このことは、これらの動作が当該特定の順序で実行されなければならないこと、又は、望ましい結果が示された動作の全てを実行することによってのみ達成されることを要せず、暗示もしない。代わりに、流れ図において説明されたステップは、異なる順序で実行されてもよい。加えて、又は、それに代えて、いくつかのステップが除外されてもよく、複数のステップが実行される1つのステップに統合されてもよく、且つ/又は、1つのステップが実行される複数のステップに分解されてもよい。
本発明は、複数の好適な実施形態を参照して説明されたが、本発明は、複数の好適な実施形態を参照して説明されたが、本発明は、開示された好適な実施形態に限定されないことを理解されたい。本発明は、付属の請求の範囲の本質及び範囲に含まれる様々な変形及び均等な変更をカバーすることを意図する。付属の請求の範囲は、最も広い説明を満たし、それによって、そのような変形及び均等な構造及び機能の全てを含む。
(付記1)
第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する方法であって、
当該方法は、
前記データモデルを記述する複数の変数を判別することと、
前記複数の変数のそれぞれに対する近似分布を選択することと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、を含み、
前記複数の変数は、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する、
関係データのためのデータモデルを生成する方法。
(付記2)
前記第1変数及び前記第2変数は、ブール変数であり、
前記複数の変数は、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第1変数と前記第2変数の可変の組合せからの結合の影響を示す第3変数のセット、をさらに含む、
付記1に記載の方法。
(付記3)
前記複数の変数は、
前記第1カテゴリの前記複数のエンティティの中で、前記第1変数のセットからのそれぞれの第1変数を有する、前記第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、
前記第2カテゴリの前記複数のエンティティの中で、前記第2変数のセットからのそれぞれの第2変数を有する、前記第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含む、
付記1又は2に記載の方法。
(付記4)
前記第1変数及び前記第2変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第3変数に対して選択される近似分布は、正規分布を含み、前記第4変数及び前記第5変数に対して選択される近似分布は、ベータ分布を含む、
付記3に記載の方法。
(付記5)
前記近似分布のパラメータを繰り返し更新することは、
勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
付記1又は2に記載の方法。
(付記6)
前記近似分布のパラメータを繰り返し更新することは、
前記第1変数及び前記第2変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
付記3に記載の方法。
(付記7)
前記近似分布のパラメータを繰り返し更新することは、
前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
付記3に記載の方法。
(付記8)
1つ以上の変数のそれぞれに対する先験的な分布を選択すること、をさらに含み、
前記データモデルの前記収束の条件は、
(1)前記1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
(2)前記第1カテゴリ及び前記第2カテゴリの任意の所定のエンティティに対する、少なくとも前記第1カテゴリと前記第2カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第1変数及び第2変数の現在の値に基づいて取得される前記第1カテゴリと前記第2カテゴリの前記所定のエンティティ間の関係の尤度と、
の少なくとも一方に基づいて判別される、
付記1に記載の方法。
(付記9)
前記第1カテゴリは、前記第2カテゴリと異なる、
付記1に記載の方法。
(付記10)
第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する装置であって、
当該装置は、
前記データモデルを記述する複数の変数を判別するように構成された判別ユニットと、
前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、を備え、
前記複数の変数は、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する、
関係データのためのデータモデルを生成する装置。
(付記11)
前記第1変数及び前記第2変数は、ブール変数であり、
前記複数の変数は、
前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第1変数と前記第2変数の可変の組合せからの結合の影響を示す第3変数のセット、をさらに含む、
付記10に記載の装置。
(付記12)
前記複数の変数は、
前記第1カテゴリの前記複数のエンティティの中で、前記第1変数のセットからのそれぞれの第1変数を有する、前記第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、
前記第2カテゴリの前記複数のエンティティの中で、前記第2変数のセットからのそれぞれの第2変数を有する、前記第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含む、
付記10又は11に記載の装置。
(付記13)
前記第1変数及び前記第2変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第3変数に対して選択される近似分布は、正規分布を含み、前記第4変数及び前記第5変数に対して選択される近似分布は、ベータ分布を含む、
付記12に記載の装置。
(付記14)
前記近似分布のパラメータを繰り返し更新することは、
勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
付記10又は11に記載の装置。
(付記15)
前記近似分布のパラメータを繰り返し更新することは、
前記第1変数及び前記第2変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
付記12に記載の装置。
(付記16)
前記近似分布のパラメータを繰り返し更新することは、
前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
付記12に記載の装置。
(付記17)
1つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニットをさらに含み、
前記データモデルの前記収束の条件は、
(1)前記1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
(2)前記第1カテゴリ及び前記第2カテゴリの任意の所定のエンティティに対する、少なくとも前記第1カテゴリと前記第2カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第1変数及び第2変数の現在の値に基づいて取得される前記第1カテゴリと前記第2カテゴリの前記所定のエンティティ間の関係の尤度と、
の少なくとも一方に基づいて判別される、
付記10に記載の装置。
(付記18)
前記第1カテゴリは、前記第2カテゴリと異なる、
付記10に記載の装置。

Claims (10)

  1. 第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する装置であって、
    当該装置は、
    前記データモデルを記述する複数の変数を判別するように構成された判別ユニットと、
    前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、
    前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、を備え、
    前記複数の変数は、
    前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、
    前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する、
    関係データのためのデータモデルを生成する装置。
  2. 前記第1変数及び前記第2変数は、ブール変数であり、
    前記複数の変数は、
    前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第1変数と前記第2変数の可変の組合せからの結合の影響を示す第3変数のセット、をさらに含む、
    請求項1に記載の装置。
  3. 前記複数の変数は、
    前記第1カテゴリの前記複数のエンティティの中で、前記第1変数のセットからのそれぞれの第1変数を有する、前記第1カテゴリのエンティティのパーセンテージを示す第4変数のセットと、
    前記第2カテゴリの前記複数のエンティティの中で、前記第2変数のセットからのそれぞれの第2変数を有する、前記第2カテゴリのエンティティのパーセンテージを示す第5変数のセットと、をさらに含む、
    請求項2に記載の装置。
  4. 前記第1変数及び前記第2変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第3変数に対して選択される近似分布は、正規分布を含み、前記第4変数及び前記第5変数に対して選択される近似分布は、ベータ分布を含む、
    請求項3に記載の装置。
  5. 前記近似分布のパラメータを繰り返し更新することは、
    勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
    請求項1又は2に記載の装置。
  6. 前記近似分布のパラメータを繰り返し更新することは、
    前記第1変数及び前記第2変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
    前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
    請求項3に記載の装置。
  7. 前記近似分布のパラメータを繰り返し更新することは、
    前記第3変数、前記第4変数及び前記第5変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
    請求項3に記載の装置。
  8. 1つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニットをさらに含み、
    前記データモデルの前記収束の条件は、
    (1)前記1つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
    (2)前記第1カテゴリ及び前記第2カテゴリの任意の所定のエンティティに対する、少なくとも前記第1カテゴリと前記第2カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第1変数及び第2変数の現在の値に基づいて取得される前記第1カテゴリと前記第2カテゴリの前記所定のエンティティ間の関係の尤度と、
    の少なくとも一方に基づいて判別される、
    請求項1に記載の装置。
  9. 前記第1カテゴリは、前記第2カテゴリと異なる、
    請求項1に記載の装置。
  10. 第1カテゴリの複数のエンティティ及び第2カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する方法であって、
    当該方法は、
    前記データモデルを記述する複数の変数を判別することと、
    前記複数の変数のそれぞれに対する近似分布を選択することと、
    前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、を含み、
    前記複数の変数は、
    前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第1カテゴリの前記エンティティの特徴を表す第1変数のセットと、
    前記第1カテゴリの前記エンティティと前記第2カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第2カテゴリの前記エンティティの特徴を表す第2変数のセットと、を有する、
    関係データのためのデータモデルを生成する方法。
JP2016040852A 2015-03-30 2016-03-03 関係データのためのデータモデル生成方法及びシステム Active JP6249027B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201510145923.0 2015-03-30
CN201510145923.0A CN106156067B (zh) 2015-03-30 2015-03-30 用于为关系数据创建数据模型的方法和系统

Publications (2)

Publication Number Publication Date
JP2016192204A JP2016192204A (ja) 2016-11-10
JP6249027B2 true JP6249027B2 (ja) 2017-12-20

Family

ID=57246929

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2016040852A Active JP6249027B2 (ja) 2015-03-30 2016-03-03 関係データのためのデータモデル生成方法及びシステム

Country Status (2)

Country Link
JP (1) JP6249027B2 (ja)
CN (1) CN106156067B (ja)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6540453B2 (ja) * 2015-10-28 2019-07-10 株式会社デンソー 情報提示システム
JP2018124990A (ja) * 2017-01-31 2018-08-09 キヤノン株式会社 モデル生成装置、評価装置、モデル生成方法、評価方法及びプログラム
CN110390396B (zh) * 2018-04-16 2024-03-19 日本电气株式会社 用于估计观测变量之间的因果关系的方法、装置和系统
US11620555B2 (en) * 2018-10-26 2023-04-04 Samsung Electronics Co., Ltd Method and apparatus for stochastic inference between multiple random variables via common representation
US11232175B2 (en) 2019-03-28 2022-01-25 Nec Corporation Method, system, and computer program product for determining causality
CN115083442B (zh) * 2022-04-29 2023-08-08 马上消费金融股份有限公司 数据处理方法、装置、电子设备以及计算机可读存储介质
CN116090072B (zh) * 2023-02-17 2023-10-03 广东省水利水电第三工程局有限公司 基于bim技术的工程施工模型导出系统

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH05346915A (ja) * 1992-01-30 1993-12-27 Ricoh Co Ltd 学習機械並びにニューラルネットワークおよびデータ分析装置並びにデータ分析方法
US20030074234A1 (en) * 2002-02-06 2003-04-17 Stasny Jeanne Ann Customer-centered pharmaceutical product and information distribution system
JP2006099662A (ja) * 2004-09-30 2006-04-13 Non-Life Insurance Rating Organization Of Japan 確率的及び工学的な水災評価方法
US20070265870A1 (en) * 2006-04-19 2007-11-15 Nec Laboratories America, Inc. Methods and systems for utilizing a time factor and/or asymmetric user behavior patterns for data analysis
CN101308493B (zh) * 2007-05-18 2010-12-08 亿览在线网络技术(北京)有限公司 实体关系展现方法和系统
US8090665B2 (en) * 2008-09-24 2012-01-03 Nec Laboratories America, Inc. Finding communities and their evolutions in dynamic social network
JP5175903B2 (ja) * 2009-08-31 2013-04-03 アクセンチュア グローバル サービスィズ ゲーエムベーハー 適応分析多次元処理システム
JP5375506B2 (ja) * 2009-10-13 2013-12-25 新日鐵住金株式会社 品質予測装置、品質予測方法、プログラムおよびコンピュータ読み取り可能な記録媒体
CN102147273B (zh) * 2010-01-29 2012-11-28 大连理工大学 一种基于数据的冶金企业高炉煤气动态预测方法
JP2012058972A (ja) * 2010-09-08 2012-03-22 Sony Corp 評価予測装置、評価予測方法、及びプログラム
JP5594532B2 (ja) * 2010-11-09 2014-09-24 ソニー株式会社 情報処理装置および方法、情報処理システム、並びに、プログラム
US8560279B2 (en) * 2011-02-08 2013-10-15 General Electric Company Method of determining the influence of a variable in a phenomenon
JP5645761B2 (ja) * 2011-06-23 2014-12-24 登史夫 小林 医療データ解析方法、医療データ解析装置およびプログラム
CN104050162B (zh) * 2013-03-11 2017-10-13 富士通株式会社 数据处理方法和数据处理装置
CN103729432B (zh) * 2013-12-27 2017-01-25 河海大学 一种引文数据库中主题文献学术影响力的分析与排序方法

Also Published As

Publication number Publication date
CN106156067A (zh) 2016-11-23
JP2016192204A (ja) 2016-11-10
CN106156067B (zh) 2019-11-01

Similar Documents

Publication Publication Date Title
JP6249027B2 (ja) 関係データのためのデータモデル生成方法及びシステム
Zhao et al. A machine learning based trust evaluation framework for online social networks
JP6414363B2 (ja) 予測システム、方法およびプログラム
WO2015158308A1 (zh) 判断用户年龄段的方法及装置
WO2019169704A1 (zh) 一种数据分类方法、装置、设备及计算机可读存储介质
CN111542844A (zh) 信息处理设备、信息处理方法和程序
JP6501855B1 (ja) 抽出装置、抽出方法、抽出プログラム及びモデル
CN104199818B (zh) 一种基于分类的社会化推荐方法
CN109903103B (zh) 一种推荐物品的方法和装置
JP6311851B2 (ja) 共クラスタリングシステム、方法およびプログラム
CN110909222B (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
KR101567684B1 (ko) 협업필터링 기반의 상품 추천 시스템에서 추천 기법을 선택하는 방법
JP2017111733A (ja) 学習装置、学習方法および学習プログラム
CN113761359B (zh) 数据包推荐方法、装置、电子设备和存储介质
US20150120731A1 (en) Preference based clustering
CN115775026B (zh) 一种基于组织相似度的联邦学习方法
CN116127346A (zh) 一种不依赖历史信息的密度聚类处理方法、设备及介质
JP6947768B2 (ja) 推定装置、推定方法および推定プログラム
CN112560105B (zh) 保护多方数据隐私的联合建模方法及装置
CN111177564B (zh) 一种产品推荐方法及装置
Qian et al. Three-way decision collaborative recommendation algorithm based on user reputation
Guo et al. Uncovering systematic bias in ratings across categories: A bayesian approach
CN117216376A (zh) 一种基于深度图神经网络的公平感知推荐系统及推荐方法
JP2013218555A (ja) 情報提供装置、情報提供方法および情報提供プログラム
CN115309985A (zh) 推荐算法的公平性评估方法及ai模型选择方法

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170315

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170425

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20170602

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171024

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171106

R150 Certificate of patent or registration of utility model

Ref document number: 6249027

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150