JP6249027B2

JP6249027B2 - 関係データのためのデータモデル生成方法及びシステム

Info

Publication number: JP6249027B2
Application number: JP2016040852A
Authority: JP
Inventors: ルウフオン; チュンチェンリウ; ホゥワン
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2015-03-30
Filing date: 2016-03-03
Publication date: 2017-12-20
Anticipated expiration: 2036-03-03
Also published as: CN106156067A; JP2016192204A; CN106156067B

Description

本発明の実施形態は、一般に、データマイニングの分野に関し、より具体的には、関係データのためのデータモデルを生成する方法及びシステムに関する。

データマイニング技術の更なる発展とともに、エンティティ間の関係情報をモデル化することが、機械学習の分野における熱い話題となっている。エンティティ間の関係情報は、例えば、ソーシャルネットワークにおける人と人とのつながり、インターネット上のリンク関係、学術文献における引用関係、生命化学におけるタンパク質間の相互作用、及び他のエンティティ間の関係情報を意味する。一般に、エンティティ（オブジェクトとも呼ばれる）に関する２つの有限のセットが存在すると仮定しよう。すると、「関係」（ｒｅｌａｔｉｏｎｓｈｉｐ）という用語は、それら２つの有限のセットからのエンティティで構成されるエンティティ対の間のつながりを意味し得る。説明のため、それら２つの有限のセットに由来するエンティティは、それぞれ、第１カテゴリのエンティティ、第２カテゴリのエンティティと呼ばれる。このようにして、上記の「関係」の例は、ある映画（第２カテゴリのエンティティ）のある視聴者（第１カテゴリのエンティティ）の評価（関係）、あるレストラン（第２カテゴリのエンティティ）の客（第１カテゴリのエンティティ）の評価（関係）、及び、ある製品（第２カテゴリのエンティティ）のある消費者（第１カテゴリのエンティティ）の購入（関係）などを含み得る。

実際に、関係データのためのデータモデルを生成することはとても有用である。例えば、生成されたデータモデルで、エンティティがクラスタリングされてもよく、それにより、エンティティの嗜好の分析をガイドし、又は、エンティティを推奨する。しかし、データモデルの生成は、先行技術において、様々な観点から、困難に直面する。まず、エンティティをクラスタリングするとき、現実の社会的属性を考慮すると、あるエンティティは、第１カテゴリに属し、且つ、第２カテゴリにも属し得る。これは、生成されたデータモデルが異なるカテゴリ間で反復するエンティティのシナリオを考慮すべきであることを要する。

さらに、従来のデータは、常に同一のエンティティのカテゴリから収集され、サンプルは、往々にして、互いに独立である。それゆえ、従来のデータのクラスタリングは、１次元しか含まない。例えば、特定の集団を調査すること、彼らの生理学的情報（身長、体重等）及び彼らの社会的情報（教育の程度、職業等）を収集すること、そして、そのような情報に基づいて、その集団を分類し、それによって様々な条件において近い人々を１つのサブグループにグルーピングすること、が従来のクラスタリング問題である。しかし、大規模な関係データは、複数のエンティティ間の関係を記述するため、関係データのクラスタリングは、常に２以上の次元を含むことを必要とする。例えば、映画のシリーズに関し、一群の視聴者の評価を収集し、評価に基づいたユーザ及び映画の対等なクラスタリングをするシナリオにおいて、ユーザ及び映画の次元からの評価の対等なクラスタリングは関係データのクラスタリングでありつつ、映画に関するユーザの評価は関係データである。情報の利用はかなり包括的であるため、そのようなクラスタリングの結果は、ユーザ又は映画などの１次元からだけの評価のクラスタリングの結果よりも、常に良好である。

先行技術において、複数のカテゴリ間に跨がるデータの存在を表すことができる主要なモデリング方法は、混合メンバーシップ確率ブロックモデル（ＭＭＳＢ）である。しかし、この方法は、同一のカテゴリのエンティティ間の関係データをモデリングし得るに過ぎず、上記の第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係データを扱うことができないため、この方法には、大きな制限がある。

先行技術に存在する上記の課題を解決するために、本開示は、以下の解決法を提供する。

本発明の１つの観点によれば、関係データのためのデータモデルを生成する方法が提供され、前記関係データは、第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づき、前記方法は、前記データモデルを記述する複数の変数を判別することを含み、前記複数の変数は、前記第１カテゴリのエンティティと前記第２カテゴリのエンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、前記第１カテゴリのエンティティと前記第２カテゴリのエンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する。前記方法は、前記複数の変数のそれぞれに対する近似分布を選択することと、前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、をさらに含む。

本発明の別の実施において、前記第１変数及び第２変数は、ブール変数であり、前記複数の変数は、前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第１変数と前記第２変数の可変の組合せからの結合の影響を示す第３変数のセット、をさらに含む。

別の実施において、前記複数の変数は、前記第１カテゴリの前記複数のエンティティの中で、前記第１変数のセットからのそれぞれの第１変数を有する、前記第１カテゴリのエンティティのパーセンテージを示す第４変数のセットと、前記第２カテゴリの前記複数のエンティティの中で、前記第２変数のセットからのそれぞれの第２変数を有する、前記第２カテゴリのエンティティのパーセンテージを示す第５変数のセットと、をさらに含む。

本発明の別の実施において、前記第１変数及び前記第２変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第３変数に対して選択される近似分布は、正規分布を含み、前記第４変数及び前記第５変数に対して選択される近似分布は、ベータ分布を含む。

本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む。

本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第１変数及び前記第２変数に対する前記近似分布の前記パラメータを繰り返し更新することと、前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む。

本発明の別の実施において、前記近似分布のパラメータを繰り返し更新することは、前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを、確率的順序で繰り返し更新すること、を含む。

本発明の別の実施において、関係データのためのデータモデルを生成する方法は、１つ以上の変数のそれぞれに対する先験的な分布を選択すること、をさらに含み、前記データモデルの前記収束の条件は、少なくとも、以下に基づいて判別される。

（１）前記１つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差、及び、

（２）前記第１カテゴリ及び前記第２カテゴリの任意の所定のエンティティに対する、少なくとも前記第１カテゴリと前記第２カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第１変数及び第２変数の現在の値に基づいて取得される前記第１カテゴリと前記第２カテゴリの前記所定のエンティティ間の関係の尤度。

別の実施において、前記第１カテゴリは、前記第２カテゴリと異なる。

本発明の別の観点によれば、関係データのためのデータモデルを生成する装置が提供され、前記関係データは、第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づき、前記装置は、前記データモデルを記述する複数の変数を判別するように構成された判別ユニットを備え、前記複数の変数は、前記第１カテゴリのエンティティと前記第２カテゴリのエンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、前記第１カテゴリのエンティティと前記第２カテゴリのエンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する。前記装置は、前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、をさらに備える。

本発明の別の実施において、前記関係データのためのデータモデルを生成する装置は、１つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニット、をさらに含み、前記データモデルの前記収束の条件は、少なくとも、以下に基づいて判別される。

本発明の様々な実施を通して、相互の重複する分類が実施されてもよく、それによって、現実の社会的な属性に従うが、その一方で、扱われる関係データにおいて関与するエンティティの種類及び量に必要条件はない。さらに、特定の変数の複数のセットを導入することによって、本発明の例示的な実施形態は、データモデルの生成プロセスをより効率的且つ正確にする。

本発明の実施形態の上記及び他の目的、特徴及び利点は、添付の図面を参照して、以下の詳細な説明を読むことを通して、より明らかになるであろう。添付の図面において、本発明の複数の実施形態が、例示的、非限定的な方法で説明され、同一の参照符号は、同一又は対応する要素を表す。

図１Ａは、ＭＭＳＢによって扱われ得るエンティティ間の関係の概略図を示す。図１Ｂは、エンティティ間のより一般的な関係の概略図を示す。図２は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する方法２００を示す。図３は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する装置３００を示す。図４は、本発明の実施形態の実施に適合された例示的な計算システム４００のブロック図を示す。

以下、本発明の原理及び本質が、図面に描かれた複数の例示的な実施形態を参照して説明される。これらの実施形態は、当業者が本発明を理解し、さらに実施することを可能とするためにのみ提供され、本発明の範囲をいかなる態様においても限定することは意図されていないことを理解されたい。さらに、本開示において、同一の変数又は記号は同一の意味を表し、繰り返し説明されない。

背景技術において説明されたように、カテゴリ間の重複状態を扱い得るモデリング方法ＭＭＳＢは、モデリングされるエンティティに特定の必要条件を有する。図１Ａは、ＭＭＳＢによって扱われ得るエンティティ間の関係の概略図を概略的に示す。図１Ａ中の行及び列は、関係に関する２つの集団（ｐａｒｔｉｅｓ）からのエンティティを表し、黒の格子は、対応する行及び列のエンティティが、それらの間に関係を有することを表し、一方、白の格子は、対応する行及び列が、それらの間に関係を有しないことを表す。図１Ａにおいて、行のエンティティ及び列のエンティティは、同一の種類のエンティティであり（例えば、ユーザ）、量のエンティティの数は、列のエンティティの数と等しいこと（例えば、それらは両方ともＪ個である）が理解される。このシナリオは、コミュニティ内のメンバ間の関係を記述するときに、一般に生じる。しかし、現実の社会においては、より複雑な関係を有する大量のデータが存在する。

例えば、図１Ｂは、エンティティ間のより一般的な関係の概略図を示す。同様に、図１Ｂの行及び列は、それぞれ、関係に関する２つの集団からのエンティティを表し、黒の格子は、対応する行及び列のエンティティが、関係を有することを表し、一方、白の格子は、対応する行及び列が、関係を有しないことを表す。図１Ｂに示されているように、両方の集団のエンティティは、異なる種類のエンティティであってもよく（例えば、客とレストラン）、行エンティティと列エンティティの数は、同じでも異なっていてもよい（例えば、Ｉ人の客とＪ個のレストラン）ことがわかる。図１Ｂにおいて説明された関係データが、図１Ａにおいて説明された関係データより普遍的であることは、容易に理解されよう。しかし、先行技術は、関係データの効率的なモデリング方法及び分類間の重複するシナリオを表現する能力を欠いている。

図２は、本発明の例示的な実施形態による関係データのためのデータモデルを生成する方法２００を示し、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係を記述するため、関係データは、第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づく。第１カテゴリは、第２カテゴリと同一であってもよく、異なっていてもよいことに注意されたい。それに対応して、第１カテゴリのエンティティ数は、第２カテゴリのエンティティと同一であってもよく、異なっていてもよい。言い換えると、方法２００は、扱われる関係データに関するカテゴリ及びエンティティ数について制限がない。

説明の便宜上、第１カテゴリのエンティティ数Ｉと第２カテゴリのエンティティ数Ｊとの間の関係データを表すために、Ｉ×Ｊの行列Ｘが用いられる。

個々の要素ｘ_ｉｊは、第１カテゴリのｉ番目のエンティティと第２カテゴリのｊ番目のエンティティとの間の関係を表す。値に関して、ｘ_ｉｊは、２進数、自然数又は実数などであり得る。例えば、関係データが食事のために客がレストランに行ったことがあるか否かを記述するシナリオにおいて、ｘ_ｉｊは、２進数であり得る一方、関係データが客のレストランに対する評価を記述するシナリオにおいて、ｘ_ｉｊは、自然数であり得る、などである。当業者においては、上記のｘ_ｉｊの値の説明は、ただ例示的であり、本発明に対する限定ではないことを理解されたい。

図２に示されているように、方法２００は、データモデルを記述する複数の変数を判別するステップＳ２１０を含む。ここで言及される複数の変数は、第１変数のセット及び第２変数のセットを含んでもよく、第１変数のセットにおけるそれぞれの第１変数は、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に影響を及ぼす、第１カテゴリのエンティティの特徴を示し、他方、第２変数のセットにおけるそれぞれの第２変数は、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に影響を及ぼす、第２カテゴリのエンティティの特徴を示す。第１変数及び第２変数の値は、実際の条件に応じて、整数、実数、又は、ブール値などの他の種類であってもよいことに注意されたい。本発明は、この点において、限定されない。

客のレストランに対する評価の例を考えよう。客のレストランに対する評価に影響を及ぼす要因は、複数であり得る。これらの要因は、例えば、客側の要因、例えば、「若い」又は「年配の」、「高度に教育を受けた」又は「無教育の」、「南部人」又は「北部人」など、を含む。同様に、これらの要因は、レストラン側の要因、例えば、「駐車場のある」又は「駐車場のない」、「良好な環境」又は「劣悪な環境」など、をも含む。エンティティを区別し、エンティティのクラスタリングを促進し得る要因が、本明細書において、エンティティの「特徴」と呼ばれていることを、当業者は理解すべきである。それゆえ、客ｉ

のレストランｊ（１≦ｊ≦Ｊ）に対する評価ｘ_ｉｊに影響を及ぼし得る特徴は、Ｋ個の第１変数のセットＵ＝（ｕ_１，ｕ_２，ｕ_３，…ｕ_Ｋ）として表され得る。特定の例において、客と、関係する第１変数のセットとの間の関係は、例えば、以下のＩ×Ｋの行列で表され得る（Ｉ人の客に対してＫ個の第１変数）。

同様に、客ｉ（１≦ｉ≦Ｉ）のレストランｊ（１≦ｊ≦Ｊ）に対する評価ｘ_ｉｊに影響を及ぼし得るレストランの特徴は、Ｌ個の第２変数のセットＶ＝（Ｖ_１，Ｖ_２，Ｖ_３，…，Ｖ_Ｌ）として表され得る。特定の例において、レストランと、関係する第２変数との間の関係は、一例として、以下のＪ×Ｌの行列で表され得る（Ｊ個のレストランに対してＬ個の第２変数）。

ステップＳ２１０は、第１変数のセット及び第２変数のセットのみを説明しているが、このデータモデルの複数の変数は、必要に応じて、他の変数を含んでもよく、含まなくてもよいと理解されるべきことに注意されたい。本発明は、この点において、限定されない。

次に、方法２００は、複数の変数のそれぞれに対する近似分布（以下、ｑによって表される）を選択するため、ステップＳ２２０に進む。計算を容易にするため、選択された近似分布は、通常、より自然な、単純な分布である。本発明の別の実施形態において、それぞれの第１変数ｕｉｋ及びそれぞれの第２変数ｖｉｊのために選択される近似分布は、ベルヌーイ分布であってもよい。すなわち、

である。

及び

は、それぞれ、第１変数及び第２変数に対する近似分布を表し、

は、それぞれ、対応する分布におけるパラメータを表し、１≦ｉ≦Ｉ、１≦ｋ≦Ｋ、１≦ｊ≦Ｊ、１≦ｌ≦Ｌである。

例において、第１変数及び第２変数のための近似分布としてベルヌーイ分布が選択されるものの、当業者においては、本発明はそれに限定されず、他の分布の選択も本発明の範囲内であることを理解されたい。

次に、方法２００は、データモデルが収束するまで、近似分布のパラメータを繰り返し更新するため、ステップＳ２３０に進む。

反復更新の実施の一例は、勾配上昇アルゴリズムを用いて実現され、そして、当業者においては、反復更新の他の既存のアルゴリズムもまた本発明の概念に含まれることを理解されたい。

さらに、データモデルが収束するか否かを判別するための基準は、複数の異なる方法を採用し得る。例えば、本発明のさらなる実施例による、例示的であるが非限定的な例において、まず、先験的な分布（以下、ｐによって表される）が、ステップＳ２１０において判別される複数の変数におけるそれぞれの変数に対して選択され得る。一実施において、未だ、ベルヌーイ分布は、先験的な分布として、第１変数のセットにおけるそれぞれの第１変数及び第２変数のセットにおけるそれぞれの第２変数のために選択されてもよく、すなわち、

である。

ｐ（ｕ_ｉｋ）及びｐ（ｖ_ｊｌ）は、それぞれ、第１変数及び第２変数に対する先験的な分布を表し、π_ｋ及びτ_ｌは、それぞれ、対応する分布におけるパラメータを表し、それらの値は、実証的な値であってもよく、又は、特定の条件に応じて設定されてもよく、１≦ｉ≦Ｉ、１≦ｋ≦Ｋ、１≦ｊ≦Ｊ、１≦ｌ≦Ｌである。

これに基づいて、データモデルの収束条件は、少なくとも以下の内容に基づいて判別され得る。

（１）複数の変数におけるそれぞれの変数の先験的な分布とそれぞれの近似分布との間の差、及び、

（２）第１カテゴリ及び第２カテゴリの任意の所定のエンティティに対し、少なくとも、第１カテゴリ及び第２カテゴリの所定のエンティティ間の関係に影響する第１変数及び第２変数の現在の値に基づいて得られた第１カテゴリと第２カテゴリとの所定のエンティティ間の関係の尤度。

それぞれの変数の先験的な分布とそれぞれの近似分布との間の差は、一緒にデータモデルの収束条件に影響を及ぼし、複数の変数が、第１変数のセット及び第２変数のセット以外の変数をさらに含むとき、尤度を取得することは、他の変数によっても影響され得ることを当業者に理解されたいが、それは、例とともに詳細に説明される。

これまでで、方法２００は終了する。

第１変数のセット及び第２変数のセットを導入してデータモデルを記述することによって、このデータモデルによって扱われ得る関係データに関するエンティティの種類及び数は限定されず、従来のＭＭＳＢ法における不備を克服することが、一方で理解され得るが、他方で、データモデルが収束する時に判別された、第１変数のセット及び第２変数のセットを学習した後で、関係する第１変数の値に従って、第１カテゴリのエンティティを分類することは容易であり得、関係する第２変数の値に従って、第２カテゴリのエンティティが分類される。さらに、現実の社会的な属性により適合する、反復するエンティティがそのような分類に跨がって存在することが許容される。

例えば、客のレストランに対する評価の上記の例において、客１及び客２が「年齢」によって１つのグループに分類され得る一方、客３は、別のグループに分類され、又は、客１及び客３が「学歴」によって１つのグループにグルーピングされ得る一方、客２は、別のグループに分類され、又は、客１及び客３が「出身地」によって１つのグループに分類され得る一方、客２は別のグループに分類される。

同様に、レストラン１及びレストラン２が「駐車のしやすさ」によって１つのグループに分類され得る一方、レストラン３は、別のグループに分類され、又は、レストラン１及びレストラン３が「環境」によって１つのグループに分類され得る一方、レストラン２は、別のグループに分類され、又は、レストラン２及びレストラン３が「味」によって１つのグループに分類される一方、レストラン１は、別のグループに分類される。

これらの分類結果は、第１カテゴリのエンティティ及び第２カテゴリのエンティティと、それらの対応する特徴との間の関係を考慮しつつ得られるので、現実の社会的な属性に整合するだけでなく、より高い精度も有し、それゆえ、広範な応用性を有する。例えば、関係データに含まれる第１カテゴリのエンティティと第２カテゴリのエンティティとが未だ関係を有しないとき（例えば、客４がレストラン５を評価していない）、それらの関係は、予測され得る。又は、新たに第１カテゴリの新規のエンティティが追加されるとき、関係する特徴に従って分類が実行され得て、それにより、第１カテゴリの新たに追加されたエンティティに対して第２の種類のエンティティを推奨する。

上述のように、データモデルの複数の変数は、第１変数のセット及び第２変数のセット以外の変数を含み得る。本発明の別の実施形態によると、第１変数及び第２変数がブール値であるとき、当該複数の変数は、第３変数をさらに含んでもよく、第３変数のそれぞれは、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に基づく、第１変数と第２変数の可変の組合せの結合の影響を示すためのものである。

第１変数及び第２変数がブール変数であるとき、客と、関係する第１変数のセットとの間の関係は、一例として、以下のＩ×Ｋの行列であり得る（Ｉ人の客に対してＫ個の第１変数）。

レストランと、関係する第２変数との間の関係は、一例として、以下のＪ×Ｌの行列であり得る（Ｊ個のレストランに対してＬ個の第２変数）。

第１変数／第２変数の値をブール型に限定することにより、第１変数／第２変数の値は、第２カテゴリのエンティティと関係（例えば、評価）があるとき、第１カテゴリのエンティティが、どの第１変数及びどの第２変数によって影響されるか（例えば、値「１」は、その変数によって影響を受けることを示し、値「０」は、その変数によって影響を受けないことを示す）を容易且つ明確に示すことができる。このように、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に関する第１変数と第２変数との結合影響度は、それぞれ、第３変数のセットＷによって表され、Ｗは、以下のＫ×Ｌの行列として示され得る。

ｗ_ｋ１は任意の実数値であってもよく、客とレストランとの間の関係を構築する場合に第１変数ｕ_ｋと第２変数ｕ_ｌの対から受ける結合の影響を示す。例えば、上記の客のレストランに対する評価の例において、ｗ_１１は、レストランを評価する客に対する、「若い」及び「駐車場のある」からの結合の影響を示す。

第３変数を導入した後、ステップＳ２２０において、それぞれの変数に対する近似分布を選択することは、第３変数のセットＷにおける、それぞれのｗ_ｋｌに対する近似分布を選択することをも含み、本発明の別の実施において、ｗ_ｋｌに対する近似分布を選択する一例は、例えば、正規分布、すなわち、

である。

ここで、

は、第３変数の近似分布を表し、

及び

は、それぞれ、近似分布のパラメータを表し、１≦ｋ≦Ｋ、１≦ｌ≦Ｌである。

第３変数のセットＷを導入するデータモデルにおいて、データモデルが収束するか否かを判別するための基準は、前述したことに基づく第３変数をもさらに考慮して調節されるべきことに注意されたい。例えば、第３変数に対して、先験的な分布が選択され得る。一実施において、第３変数に対する先験的な分布として、正規分布が利用され得る。すなわち、

である。

ここで、ｐ（ｗ_ｋ１）は、第３変数の先験的な分布を表し、σ_ｗ ^２は、当該分布におけるパラメータであり、Ｗの二乗差分を示す。ここで、σ_ｗ ^２は、実証的な値を利用し、１≦ｋ≦Ｋ、１≦ｌ≦Ｌである。

ここで、データモデルの収束条件のための基礎としての内容（１）（すなわち、先験的な分布とそれぞれの変数の近似分布との差）は、先験的な分布とその第３変数の近似分布との間の差を含むべきであり、データモデルの収束条件のための基礎としての内容（２）（すなわち、尤度値の計算）において、第１カテゴリの所定のエンティティと第２カテゴリの所定のエンティティとの間の関係の尤度の計算は、変数の第３セットにおけるそれぞれの変数の値をもさらに考慮すべきである。

上述のように、第１変数及び第２変数をブール値型として設定することにより、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に関する第１変数及び第２変数の可変の組合せからの結合の影響を記述する第３変数のセットを導入する一方で、第１変数及び第２変数の形式が単純化され、機械学習のためのそれぞれの変数の意味がより厳密になり、それにより、データモデルの生成効率を促進する。

さらに、本発明のさらなる実施形態によると、データモデルの複数の変数は、必要に応じて、第４変数のセット及び第５変数のセットを含んでいてもよく、第４変数は、第１カテゴリの複数のエンティティの中で、第１変数のセットからのそれぞれの第１変数を有する、第１カテゴリのエンティティのパーセンテージを示し、それぞれの第５変数は、第２カテゴリの複数のエンティティの中で、第２変数のセットからのそれぞれの第２変数を有する、第２カテゴリのエンティティのパーセンテージを示す。

第４変数は、特定の第１変数を有する第１カテゴリのエンティティを反映する統計値であるため、第４変数のセットにおけるそれぞれの第４変数は、第１変数に対応し、それゆえ、第４変数のセットは、π＝（π_１，π_２，π_３，…π_Ｋ）と表され得る。同様に、第５変数は、特定の第２変数を有する第２の種類のエンティティを反映する統計値であるため、第５変数のセットにおけるそれぞれの第５変数は、第２変数に対応し、それゆえ、第５変数のセットは、τ＝（τ_１，τ_２，τ_３，…τ_Ｌ）と表され得る。

第４変数及び第５変数を導入する場合、ステップＳ２２０において、それぞれの変数に対する近似分布の選択は、第４変数及び第５変数に対する近似分布をもそれぞれ選択し得る。例えば、第４変数及び第５変数に対して、ベータ分布が選択され得る。すなわち、

である。

ここで、

及び

は、それぞれ、第４変数及び第５変数に対する近似分布を表し、ａ_ｋ１，ａ_ｋ２，ｂ_ｌ１，ｂ_ｌ２は、対応するベータ分布のパラメータであり、１≦ｋ≦Ｋ、１≦ｌ≦Ｌである。

当業者においては、第４変数及び第５変数のための近似分布としてベータ分布を選択することが例において説明されているが、本発明は、それに限定されず、他の分布を選択することも本発明の範囲内であることを理解されたい。

同様に、第４変数のセットπ及び第５変数のセットτを導入したデータモデルにおいて、データモデルが収束するか否かを判別するための基準は、上述されたことに基づいて、第４変数及び第５変数をも考慮して調整されるべきであることに注意されたい。例えば、先験的な分布が、第４変数及び第５変数に対して選択され得る。実施において、ベータ分布が、第４変数及び第５変数に対する先験的な分布として利用され得る。すなわち、

である。

ｐ（π_ｋ）は、第４変数の先験的な分布を示し、ｐ（τ_ｌ）は、第５変数の先験的な分布を示し、Ｋ及びＬは、対応するベータ分布におけるパラメータであり、ここで、Ｋ及びＬは、実証的な値を利用する。ここで、内容（１）（すなわち、先験的な分布とそれぞれの変数の近似分布との差）は、先験的な分布と第４変数及び第５変数のための近似分布との間の差を含むべきである。

それぞれ、第１変数及び第２変数と関連する統計値である、第４変数及び第５変数を導入することによって、第１変数及び第２変数を更新するのに役立ち、データモデルの生成効率をさらに促進する。

さらに、本発明の別の実施形態によると、第１変数から第５変数までの５つのカテゴリのデータモデルを生成するプロセスにおいて、方法２００のステップＳ２３０で、それぞれの近似分布のパラメータを繰り返し更新することは、第１変数及び第２変数に対応する近似分布のパラメータを繰り返し更新することと、第３変数、第４変数及び第５変数に対する近似分布のパラメータを繰り返し更新することと、をさらに含み得る。

言い換えると、第１変数及び第２変数に対する近似分布のパラメータは、第３から第５変数に対する近似分布のパラメータより前に更新される。そのような更新順序は、更新プロセス中、それぞれの変数の近似分布のパラメータの他の変数に対する影響を十分に考慮し、データモデルの生成効率をさらに促進するのに役立つ。

本発明のまた別の実施形態によれば、方法２００のステップＳ３２０において、近似分布のためのパラメータを繰り返し更新することは、第３変数、第４変数及び第５変数に対する近似分布のパラメータを確率的順序で更新することをも含み得る。確率的更新順序で、パラメータ更新プロセス中、局所最適値に陥ることが防止され得、データモデルの生成精度をさらに向上する。

本発明をより深く理解するために、特定の実施の流れが以下に説明される。流れの中で、データモデルのために判別された複数の変数は、第１から第５の変数のセットを含むことを仮定しよう。さらに、流れの中で、全ての変数及び関連するパラメータは、上述されたことと整合し、ここで詳述されない。当業者においては、以下の説明が単に説明のための実施であり、本発明のいかなる観点に対する限定でもないことをも理解されたい。

（ｉ）まず、第１変数のセットにおけるＫ個の第１変数及び第２変数のセットにおけるＬ個の第２変数に対して、異なる値が設定される。例えば、Ｋ＝Ｋ_ｍｉｎ，…，Ｋ_ｍａｘ、Ｌ＝Ｌ_ｍｉｎ，…，Ｌ_ｍａｘであり、Ｋ_ｍｉｎ、Ｋ_ｍａｘ、Ｌ_ｍｉｎ及びＬ_ｍａｘの特定の値は、実際の関係データに応じて設定される。

（ｉｉ）次に、Ｋ及びＬのそれぞれの値の組合せに対して、以下のステップが実行される。

（ａ）先験的な分布に関するパラメータα、β及びσ_Ｗ、近似分布に関するパラメータ

を初期化する。当業者においては、それぞれのパラメータが確率的な値で初期化されてもよく、それぞれのパラメータに対して実証的な値が初期化されてもよいことを理解されたい。本発明は、この点において、限定されない。

（ｂ）収束基準が満たされたか否かを判別し、収束基準が満たされていないとき、ステップ（ｂ−１）から（ｂ−４）を実行する。収束基準は、例えば、エビデンス下限（ＥｖｉｄｅｎｃｅＬｏｗｅｒＢｏｕｎｄ、ＥＬＢＯ）Ｌを導入することによって判別され得る。すなわち、計算されたＥＬＢＯＬを最大化する。

ここで、Ｅ_ｑは、近似分布ｑの期待値を表し、Ｈ（ｑ（Λ））は、エントロピーを表し、ｐ（Ｘ，Λ｜θ）は、結合分布を表し、ｑ（Λ）は、近似分布を表し、それぞれ、

と展開され得る。

ここで、α及びβは、第１及び第２変数の望ましい数を制御するためのインディアビュッフェプロセス（ＩｎｄｉａＢｕｆｆｅｔＰｒｏｃｅｓｓ、ＩＢＰ）に対する先験的なパラメータであり、σ_Ｗ ^２は、Ｗの分散である。実施中、Ｗは、先験的に、０平均のガウシアン（Ｇａｕｓｓｉａｎ）を利用してもよい。

確率的最適化技術をさらに導入することによって、ＥＬＢＯの計算は、以下のように展開され得る。

ここで、ｉ’及びｊ’は、収集されたエンティティ対であり（ステップｂ−１において詳しく説明される）、ｋ＝１，…，Ｋ、ｌ＝１，…，Ｌである。このようにして、モデルの収束条件は、Ｌ_ｉ’ｊ’を最大化することに変換され得る。

（ｂ−１）関係データＸにおけるエンティティ対のサブセットＳを収集し、サブセット中のそれぞれの要素は、関連するエンティティ対の間の関係を表す。ここで、ｉ’及びｊ’は、収集されたエンティティ対を示し、ｉ’〜Ｕｎｉｆｏｒｍ（１，…，Ｉ）、ｊ’〜Ｕｎｉｆｏｒｍ（１，…，Ｊ）である。

（ｂ−２）サブセットＳ中の任意のエンティティ対ｉ’及びｊ’に対し、パラメータ

を更新する。例示的な更新方法は、まず、勾配が生じるかもしれないパラメータを得て、その後、従来の勾配の交互上昇を利用するか、又は、２つのパラメータに関するノイズ自然勾配

及び

を０に設定し、そして、更新された

を取得するために方程式を解く。

（ｂ−３）以下のパラメータのノイズ自然勾配（ここで、まだ勾配は正確な値ではないため、「ノイズ自然勾配」と呼ばれる）を計算する。

ここで、ｋ＝１，…，Ｋであり、ｌ＝１，…，Ｌである。

（ｂ−４）全てのｋ及びｌに対し（ｋ＝１，…，Ｋ、ｌ＝１，…，Ｌ）、パラメータａ、ｂ及びφを更新することは、

であり、λ^ｔは、所定のステップ長であり、λ^ｔ＝（τ_０＋ｔ）^−κと表され得る。この式において、ｔは、繰り返し回数を表し、その値は、０以上の整数であり、κは、繰り返し速度を制御するためのパラメータを表し、予め設定された固定値であり、好ましくは、０．５から１の間であり、τ_０は、ステップの長さに対するｔの値からの影響を調節するためのものであり、これも予め設定された固定値であってもよく、好ましくは、０以上の小さい実数に定められる。

（ｉｉｉ）計算されたＥＬＢＯを最大化するＫ及びＬを選択し、パラメータ値を関連づけ、それによって、データモデルを構築する。

以下、本発明の例示的な実施形態による関係データのためのデータモデルを生成する装置３００をさらに説明する図３を参照しよう。

図面に示されているように、装置３００は、判別ユニット３０１と、近似分布選択ユニット３０２と、更新ユニット３０３とを備え、判別ユニット３０１は、データモデルを記述する複数の変数を判別するように構成され、複数の変数は、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に影響を及ぼす第１カテゴリのエンティティの特徴を表す第１変数のセットと、第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に影響を及ぼす第２カテゴリのエンティティの特徴を表す第２変数のセットと、を含む。近似分布選択ユニット３０２は、複数の変数のそれぞれに対する近似分布を選択するように構成されている。更新ユニット３０３は、データモデルが収束するまで、近似分布のパラメータを繰り返し更新するように構成されている。

本発明の別の実施形態において、第１変数及び第２変数は、ブール値であり、複数の変数は、第１変数と第２変数との可変の組合せから第１カテゴリのエンティティと第２カテゴリのエンティティとの間の関係に及ぼす結合の影響を示す第３変数のセットをさらに含む。

本発明の別の実施形態において、複数の変数は、第１カテゴリの複数のエンティティの中で、第１変数のセットからのそれぞれの第１変数を有する、第１カテゴリのエンティティのパーセンテージを示す第４変数のセットと、第２カテゴリの複数のエンティティの中で、第２変数のセットからのそれぞれの第２変数を有する、第２カテゴリのエンティティのパーセンテージを示す第５変数のセットと、をさらに含み得る。

本発明の別の実施形態において、第１変数及び第２変数に対して選択された近似分布は、ベルヌーイ分布を含み、第３変数に対して選択された近似分布は、正規分布を含み、第４変数及び第５変数に対して選択された近似分布は、ベータ分布を含む。

本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、勾配上昇アルゴリズムを用いて近似分布のパラメータを繰り返し更新することをさらに含む。

本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、第１変数及び第２変数に対する近似分布のパラメータを繰り返し更新することと、第３変数、第４変数及び第５変数に対する近似分布のパラメータを繰り返し更新することと、をさらに含む。

本発明の別の実施形態において、近似分布のパラメータを繰り返し更新することは、第３変数、第４変数及び第５変数に対する近似分布のパラメータを、確率的順序で更新することを含む。

本発明の別の実施形態において、装置３００は、１つ以上のそれぞれの変数に対する先験的な分布を選択するように構成された選択ユニットをさらに備え、データモデルの収束条件は、少なくとも以下に基づく。

（１）１つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差、及び、

（２）第１カテゴリ及び第２カテゴリの全ての所定のエンティティに対する、少なくとも第１カテゴリ及び第２カテゴリの所定のエンティティ間の関係に影響する第１変数及び第２変数の現在の値に基づいて取得された第１カテゴリ及び第２カテゴリの所定のエンティティ間の関係の尤度。

別の実施形態において、第１カテゴリは、第２カテゴリと異なる。

以下、本発明の実施形態を実施するように適合された計算機システム４００の概略ブロック図が提示されている図４を参照しよう。例えば、図４に示されている計算機システム４００は、上述された関係データのためのデータモデルを生成する装置３００のそれぞれの部品を実施するため、又は、上述された関係データのためのデータモデルを生成する方法２００のそれぞれのステップを充実させ（ｓｏｌｉｄｉｆｙ）、若しくは実施するために用いられ得る。

図４に示されているように、計算機システムは、ＣＰＵ（中央処理装置）４０１、ＲＡＭ（ランダムアクセスメモリ）４０２、ＲＯＭ（読み取り専用メモリ）４０３、システムバス４０４、ハードディスクコントローラ４０５、キーボードコントローラ４０６、シリアルインタフェースコントローラ４０７、パラレルインタフェースコントローラ４０８、ディスプレイコントローラ４０９、ハードディスク４１０、キーボード４１１、シリアル外部デバイス４１２、パラレル外部デバイス４１３及びディスプレイ４１４を含み得る。これらのデバイスの中で、システムバスに接続されるものは、ＣＰＵ４０１、ＲＡＭ４０２、ＲＯＭ４０３、ハードディスクコントローラ４０５、キーボードコントローラ４０６、シリアルコントローラ４０７、パラレルコントローラ４０８及びディスプレイコントローラ４０９を含む。ハードディスク４１０は、ハードディスクコントローラ４０５に接続され、キーボード４１１は、キーボードコントローラ４０６に接続され、シリアル外部デバイス４１２は、シリアルインタフェースコントローラ４０７に接続され、パラレル外部デバイス４１３は、パラレルインタフェースコントローラ４０８に接続され、且つ、ディスプレイ４１４は、ディスプレイコントローラ４０９に接続されている。図４に示されている構造ブロック図は、例示目的のためだけに描かれ、本発明の範囲を限定するためではないことを理解されたい。いくつかの場合においては、特定の状況に応じて、複数のデバイスが追加され、又は、除去されてもよい。

上述のように、システム３００は、純粋なハードウェア、例えば、チップ、ＡＳＩＣ、ＳＯＣなどとして実施されてもよい。そのようなハードウェアは、計算機システム４００に統合され得る。さらに、本発明の実施形態は、コンピュータプログラム製品の形で実施されてもよい。例えば、図２を参照して説明された方法２００は、コンピュータプログラム製品を通じて実施されてもよい。コンピュータプログラム製品は、ＲＡＭ４０２、ＲＯＭ４０３、ハードディスク４１０及び／若しくは図４に示されている任意の適切な記憶媒体に保持されてもよく、又は、ネットワークを通じて適切な場所から計算機システム４００上にダウンロードされてもよい。コンピュータプログラム製品は、適切な処理デバイス（例えば、図４に示されているＣＰＵ４０１）によって実行され得るプログラム命令を含むコンピュータコードセクションを含み得る。コンピュータプログラム命令は、少なくとも方法２００のステップを実施するための命令を含み得る。

本発明の本質及び原理が、複数の好適な実施形態とともに説明された。本発明による関係データのためのデータモデルを生成する方法及びシステムは、先行技術に対して多数の利点を有する。例えば、本発明において生成されたデータモデルを通して、相互に重複する分類が実現され得、それによって、現実の社会的な属性に整合する一方、扱われる関係データに関するエンティティの種類及び量に必要条件は存在しない。さらに、特定の変数の複数のセットを導入することによって、本発明の例示的な実施形態は、データモデルの生成プロセスをより効率的且つ正確にする。

実施形態は、ハードウェア、ソフトウェア又はソフトウェアとハードウェアの組合せによって実施され得ることに注意されたい。ハードウェアのセクションは、特定のロジックを用いて実現され得、ソフトウェアの部分は、メモリに格納され、且つ、適切な命令実行システム、例えば、マイクロプロセッサ又は特別に設計されたハードウェアによって実行され得る。この技術分野における通常を有する者は、上記のデバイス及び方法が、コンピュータ実行可能な命令を用いて実現され得、且つ／又は、プロセッサ制御コード、例えば、磁気ディスク、ＣＤ若しくはＤＶＤ−ＲＯＭなどの担体媒体、読み取り専用メモリ（ファームウェア）などのプログラム可能なメモリ、又は、電気信号キャリアなどのデータキャリア、に含まれ得ることを理解するであろう。本発明の装置及びそのモジュールは、超大規模集積回路若しくはゲートアレイなどの半導体、ロジックチップ、トランジスタなどの半導体、又は、フィールドプログラマブルゲートアレイ、プログラム可能なロジックデバイスなどのプログラム可能なハードウェアデバイスのハードウェア回路によって実現され、若しくは、様々な種類のプロセッサによって実行されるソフトウェアによって実現され、又は、上記のハードウェア回路とソフトウェアとの組合せ、例えば、ファームウェアによって実現され得る。

本明細書の記載において説明された通信ネットワークは、ローカルエリアネットワーク（「ＬＡＮ」）、広域ネットワーク（「ＷＡＮ」）、ＩＰプロトコルに基づくネットワーク（例えば、インターネット）及びピアツーピアネットワーク（例えば、アドホックピアネットワーク）を含むが、これらに限定されない、様々な種類のネットワークを含み得る。

装置のいくつかのモジュール又はサブモジュールが以上で詳細に説明されたが、そのような分割は、限定的でないことに注意されたい。実際、本発明の実施形態によれば、上述の２つ以上のモジュールの特徴及び機能が１つのモジュール内で具体化され得る。今度は、上述の１つのモジュールの特徴及び機能が、具体化される複数のモジュールにさらに分割され得る。

さらに、本発明による方法の動作は、図面において、特定の順序で説明されたが、このことは、これらの動作が当該特定の順序で実行されなければならないこと、又は、望ましい結果が示された動作の全てを実行することによってのみ達成されることを要せず、暗示もしない。代わりに、流れ図において説明されたステップは、異なる順序で実行されてもよい。加えて、又は、それに代えて、いくつかのステップが除外されてもよく、複数のステップが実行される１つのステップに統合されてもよく、且つ／又は、１つのステップが実行される複数のステップに分解されてもよい。

本発明は、複数の好適な実施形態を参照して説明されたが、本発明は、複数の好適な実施形態を参照して説明されたが、本発明は、開示された好適な実施形態に限定されないことを理解されたい。本発明は、付属の請求の範囲の本質及び範囲に含まれる様々な変形及び均等な変更をカバーすることを意図する。付属の請求の範囲は、最も広い説明を満たし、それによって、そのような変形及び均等な構造及び機能の全てを含む。

（付記１）
第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する方法であって、
当該方法は、
前記データモデルを記述する複数の変数を判別することと、
前記複数の変数のそれぞれに対する近似分布を選択することと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、を含み、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する、
関係データのためのデータモデルを生成する方法。

（付記２）
前記第１変数及び前記第２変数は、ブール変数であり、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第１変数と前記第２変数の可変の組合せからの結合の影響を示す第３変数のセット、をさらに含む、
付記１に記載の方法。

（付記３）
前記複数の変数は、
前記第１カテゴリの前記複数のエンティティの中で、前記第１変数のセットからのそれぞれの第１変数を有する、前記第１カテゴリのエンティティのパーセンテージを示す第４変数のセットと、
前記第２カテゴリの前記複数のエンティティの中で、前記第２変数のセットからのそれぞれの第２変数を有する、前記第２カテゴリのエンティティのパーセンテージを示す第５変数のセットと、をさらに含む、
付記１又は２に記載の方法。

（付記４）
前記第１変数及び前記第２変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第３変数に対して選択される近似分布は、正規分布を含み、前記第４変数及び前記第５変数に対して選択される近似分布は、ベータ分布を含む、
付記３に記載の方法。

（付記５）
前記近似分布のパラメータを繰り返し更新することは、
勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
付記１又は２に記載の方法。

（付記６）
前記近似分布のパラメータを繰り返し更新することは、
前記第１変数及び前記第２変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
付記３に記載の方法。

（付記７）
前記近似分布のパラメータを繰り返し更新することは、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
付記３に記載の方法。

（付記８）
１つ以上の変数のそれぞれに対する先験的な分布を選択すること、をさらに含み、
前記データモデルの前記収束の条件は、
（１）前記１つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
（２）前記第１カテゴリ及び前記第２カテゴリの任意の所定のエンティティに対する、少なくとも前記第１カテゴリと前記第２カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第１変数及び第２変数の現在の値に基づいて取得される前記第１カテゴリと前記第２カテゴリの前記所定のエンティティ間の関係の尤度と、
の少なくとも一方に基づいて判別される、
付記１に記載の方法。

（付記９）
前記第１カテゴリは、前記第２カテゴリと異なる、
付記１に記載の方法。

（付記１０）
第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する装置であって、
当該装置は、
前記データモデルを記述する複数の変数を判別するように構成された判別ユニットと、
前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、を備え、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する、
関係データのためのデータモデルを生成する装置。

（付記１１）
前記第１変数及び前記第２変数は、ブール変数であり、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第１変数と前記第２変数の可変の組合せからの結合の影響を示す第３変数のセット、をさらに含む、
付記１０に記載の装置。

（付記１２）
前記複数の変数は、
前記第１カテゴリの前記複数のエンティティの中で、前記第１変数のセットからのそれぞれの第１変数を有する、前記第１カテゴリのエンティティのパーセンテージを示す第４変数のセットと、
前記第２カテゴリの前記複数のエンティティの中で、前記第２変数のセットからのそれぞれの第２変数を有する、前記第２カテゴリのエンティティのパーセンテージを示す第５変数のセットと、をさらに含む、
付記１０又は１１に記載の装置。

（付記１３）
前記第１変数及び前記第２変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第３変数に対して選択される近似分布は、正規分布を含み、前記第４変数及び前記第５変数に対して選択される近似分布は、ベータ分布を含む、
付記１２に記載の装置。

（付記１４）
前記近似分布のパラメータを繰り返し更新することは、
勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
付記１０又は１１に記載の装置。

（付記１５）
前記近似分布のパラメータを繰り返し更新することは、
前記第１変数及び前記第２変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
付記１２に記載の装置。

（付記１６）
前記近似分布のパラメータを繰り返し更新することは、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
付記１２に記載の装置。

（付記１７）
１つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニットをさらに含み、
前記データモデルの前記収束の条件は、
（１）前記１つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
（２）前記第１カテゴリ及び前記第２カテゴリの任意の所定のエンティティに対する、少なくとも前記第１カテゴリと前記第２カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第１変数及び第２変数の現在の値に基づいて取得される前記第１カテゴリと前記第２カテゴリの前記所定のエンティティ間の関係の尤度と、
の少なくとも一方に基づいて判別される、
付記１０に記載の装置。

（付記１８）
前記第１カテゴリは、前記第２カテゴリと異なる、
付記１０に記載の装置。

Claims

第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する装置であって、
当該装置は、
前記データモデルを記述する複数の変数を判別するように構成された判別ユニットと、
前記複数の変数のそれぞれに対する近似分布を選択するように構成された近似分布選択ユニットと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新するように構成された更新ユニットと、を備え、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する、
関係データのためのデータモデルを生成する装置。
前記第１変数及び前記第２変数は、ブール変数であり、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす、前記第１変数と前記第２変数の可変の組合せからの結合の影響を示す第３変数のセット、をさらに含む、
請求項１に記載の装置。
前記複数の変数は、
前記第１カテゴリの前記複数のエンティティの中で、前記第１変数のセットからのそれぞれの第１変数を有する、前記第１カテゴリのエンティティのパーセンテージを示す第４変数のセットと、
前記第２カテゴリの前記複数のエンティティの中で、前記第２変数のセットからのそれぞれの第２変数を有する、前記第２カテゴリのエンティティのパーセンテージを示す第５変数のセットと、をさらに含む、
請求項２に記載の装置。
前記第１変数及び前記第２変数に対して選択される近似分布は、ベルヌーイ分布を含み、前記第３変数に対して選択される近似分布は、正規分布を含み、前記第４変数及び前記第５変数に対して選択される近似分布は、ベータ分布を含む、
請求項３に記載の装置。
前記近似分布のパラメータを繰り返し更新することは、
勾配上昇アルゴリズムを用いて前記近似分布の前記パラメータを繰り返し更新すること、をさらに含む、
請求項１又は２に記載の装置。
前記近似分布のパラメータを繰り返し更新することは、
前記第１変数及び前記第２変数に対する前記近似分布の前記パラメータを繰り返し更新することと、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを繰り返し更新することと、をさらに含む、
請求項３に記載の装置。
前記近似分布のパラメータを繰り返し更新することは、
前記第３変数、前記第４変数及び前記第５変数に対する前記近似分布の前記パラメータを、確率的順序で更新すること、を含む、
請求項３に記載の装置。
１つ以上の変数のそれぞれに対する先験的な分布を選択するように構成された選択ユニットをさらに含み、
前記データモデルの前記収束の条件は、
（１）前記１つ以上の変数のそれぞれの事後的な分布とそれぞれの近似分布との間の差と、
（２）前記第１カテゴリ及び前記第２カテゴリの任意の所定のエンティティに対する、少なくとも前記第１カテゴリと前記第２カテゴリとの所定の前記エンティティ間の関係に影響を及ぼす第１変数及び第２変数の現在の値に基づいて取得される前記第１カテゴリと前記第２カテゴリの前記所定のエンティティ間の関係の尤度と、
の少なくとも一方に基づいて判別される、
請求項１に記載の装置。
前記第１カテゴリは、前記第２カテゴリと異なる、
請求項１に記載の装置。
第１カテゴリの複数のエンティティ及び第２カテゴリの複数のエンティティに基づく関係データのためのデータモデルを生成する方法であって、
当該方法は、
前記データモデルを記述する複数の変数を判別することと、
前記複数の変数のそれぞれに対する近似分布を選択することと、
前記データモデルが収束するまで、前記近似分布のパラメータを繰り返し更新することと、を含み、
前記複数の変数は、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第１カテゴリの前記エンティティの特徴を表す第１変数のセットと、
前記第１カテゴリの前記エンティティと前記第２カテゴリの前記エンティティとの間の関係に影響を及ぼす前記第２カテゴリの前記エンティティの特徴を表す第２変数のセットと、を有する、
関係データのためのデータモデルを生成する方法。