JP2018142095A - プログラム及び情報処理装置 - Google Patents

プログラム及び情報処理装置 Download PDF

Info

Publication number
JP2018142095A
JP2018142095A JP2017034888A JP2017034888A JP2018142095A JP 2018142095 A JP2018142095 A JP 2018142095A JP 2017034888 A JP2017034888 A JP 2017034888A JP 2017034888 A JP2017034888 A JP 2017034888A JP 2018142095 A JP2018142095 A JP 2018142095A
Authority
JP
Japan
Prior art keywords
feature
clustering
subject
node
expression
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2017034888A
Other languages
English (en)
Inventor
シュウレ 邱
Xule Qiu
シュウレ 邱
岡本 洋
Hiroshi Okamoto
洋 岡本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Priority to JP2017034888A priority Critical patent/JP2018142095A/ja
Priority to US15/692,375 priority patent/US11068525B2/en
Priority to CN201711062209.0A priority patent/CN108509971A/zh
Publication of JP2018142095A publication Critical patent/JP2018142095A/ja
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/29Graphical models, e.g. Bayesian networks
    • G06F18/295Markov models or related models, e.g. semi-Markov models; Markov random fields; Networks embedding Markov models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • G06V10/457Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by analysing connectivity, e.g. edge linking, connected component analysis or slices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Computational Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Multimedia (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】主体が持つ素性群を表す特徴表現のベクトル同士の距離に基づくクラスタリングよりも、より正確なクラスタリング結果を得る。
【解決手段】取得部140は、多数の主体について、その主体の各素性の値を示した生の特徴表現の情報を取得する。二部ネットワーク生成部142は、各主体及び各素性をそれぞれノードとし、主体に対応するノードとその主体が持つ素性に対応するノードとをリンクで結んだ二部ネットワークを生成する。クラスタリング計算部144は、この二部ネットワークを対象に、マルコフ連鎖のモジュール分解に基づく計算を実行することで、それらノードをクラスタリングする。
【選択図】図1

Description

本発明は、プログラム及び情報処理装置に関する。
主体(分析の対象)についての生データからその主体が持つ各素性の値を機械的に抽出し、それら各素性の値の組をその主体の特徴を表す特徴表現として用いることがよく行われている。例えば、文書の特徴表現として、その文書における各単語の出現頻度を表すベクトルを用いる等の例はよく知られている。
また、生データから得た主体の特徴表現をクラスタリングする分析手法もよく用いられる。従来のクラスタリング手法では、主体の生データから得た特徴表現をベクトルと見なし、ベクトル空間内での特徴表現ベクトル同士の距離に基づきクラスタリングを行うことが一般的である。
また発明者らは、特許文献1、2、3にて「マルコフ連鎖のモジュール分解」に基づいて、ネットワークから重なりと階層を持つクラスタ構造を検出する方法を提案した。マルコフ連鎖のモジュール分解に基づくクラスタリング(コミュニティ抽出)の計算では、ネットワークの各ノードが持つ確率がリンクを経由して他のリンクに遷移(ランダムウォーク)するというモデルで各ノードの確率の変化を繰り返し計算し、定常状態に達したときの情報に基づき、各ノードがどのクラスタに属するのかを判定した。
特開2013−168127号公報 特開2016−029526号公報 特開2016−218531号公報
特徴表現のベクトル同士の距離に基づくクラスタリングでは、ベクトルが含む成分(すなわち素性)同士に関係があってもその関係はクラスタリングに反映されないので、ベクトルベースのクラスタリングでは、主体のクラスタリングが正確に行われない場合がある。例えば、人が過去に購入した食品のリストをその人の特徴表現のベクトルとしてクラスタリングを行う場合、果物好きで果物を他種類の食品よりも多く購入している人が2人いたとしても、それら2人が購入した果物がまったく異なれば、それら2人は、果物好きとして同一クラスタに分類されるのではなく、別々のクラスタに分類されてしまう可能性がある。
本発明は、主体が持つ素性群を表す特徴表現のベクトル同士の距離に基づくクラスタリングよりも、より正確なクラスタリング結果を得ることができる方式を提供することを目的とする。
請求項1に係る発明は、コンピュータを、各主体が持つ各素性を表す入力データを取得する手段、前記入力データに含まれる前記各主体及び前記各素性をそれぞれノードとし、前記主体に対応するノードと、その主体が持つ各素性に対応する各ノードと、をリンクで結んだ二部ネットワークを生成する生成手段、前記二部ネットワークにおけるリンクを介するノード間の遷移の確率過程の繰り返し計算を実行することにより、前記ノード群のクラスタリングを行うクラスタリング手段、として機能させるためのプログラムである。
請求項2に係る発明は、前記コンピュータを、前記クラスタリング手段による前記クラスタリングの結果を用いて、前記各主体につき、クラスタリングの観点でのその主体の特徴を表す主体クラスタ特徴データを生成する主体特徴生成手段、として更に機能させるための請求項1に記載のプログラムである。
請求項3に係る発明は、前記コンピュータを、前記クラスタリング手段による前記クラスタリングの結果を用いて、前記各素性につき、クラスタリングの観点でのその素性の特徴を表す素性クラスタ特徴データを生成する素性特徴生成手段、として更に機能させるための請求項1又は2に記載のプログラムである。
請求項4に係る発明は、前記コンピュータを、前記入力データに含まれない新たな主体について、前記新たな主体が持つ各素性を表すデータが入力された場合に、前記入力データに対する前記クラスタリングの結果を用いて前記素性特徴生成手段が生成した前記各素性の前記素性クラスタ特徴データを用いて、クラスタリングの観点での前記新たな主体の特徴を表す特徴データを生成する手段、として更に機能させるための請求項3に記載のプログラムである。
請求項5に係る発明は、前記クラスタリング手段は、前記確率過程における各ノードの初期値を、前記主体に対応するノード群の初期値の合計と前記素性に対応するノードの初期値の合計とが実質的に等しいという条件を満たすように設定し、設定した各ノードの初期値を用いて前記繰り返し計算を実行する、こと特徴とする請求項1〜4のいずれか1項に記載のプログラムである。
請求項6に係る発明は、前記クラスタリング手段は、前記確率過程の繰り返し計算として、離散時間モデルではなく連続時間モデルを用いて計算を行う、ことを特徴とする請求項1〜4のいずれか1項に記載のプログラムである。
請求項7に係る発明は、各主体が持つ各素性を表す入力データを取得する手段と、前記入力データに含まれる前記各主体及び前記素性をそれぞれノードとし、前記主体に対応するノードと、その主体が持つ各素性に対応する各ノードと、をリンクで結んだ二部ネットワークを生成する生成手段と、前記二部ネットワークにおけるリンクを介するノード間の遷移の確率過程の繰り返し計算を実行することにより、前記ノード群のクラスタリングを行うクラスタリング手段と、を有する情報処理装置である。
請求項1又は7に係る発明によれば、主体が持つ素性群を表す特徴表現のベクトル同士の距離に基づくクラスタリングよりも、より正確なクラスタリング結果を得ることができる。
請求項2に係る発明によれば、クラスタリングの観点での主体の新たな特徴を示すデータを生成することができる。
請求項3に係る発明によれば、クラスタリングの観点で素性の特徴を示すデータを生成することができる。
請求項4に係る発明によれば、新たな主体についてのデータが入力された場合に、その主体についてのデータを二部ネットワークに反映させて確率過程の繰り返し計算を行うよりも少ない計算負荷で、その新たな主体についての特徴データを求めることができる。
請求項5に係る発明によれば、主体に対応するノード群と素性に対応するノード群との間で確率の値が交互に行き来することによる繰り返し計算の収束のしにくさを、主体のノード群と素性のノード群との初期値を単にランダムに決める場合よりも、緩和することができる。
請求項6に係る発明によれば、主体に対応するノード群と素性に対応するノード群との間で確率の値が交互に行き来することによる繰り返し計算の収束のしにくさを、離散時間モデルを用いる場合よりも、緩和することができる。
実施形態の装置構成の例を示す図である。 生データから求められた生の特徴表現の例を示す図である。 主体と素性の二部ネットワークの例を示す図である。 クラスタリング計算部が実行する処理の例を示す図である。 主体についてのクラスタリング結果の一例を示す図である。 特徴表現生成部が生成する特徴表現の例を示す図である。 確率スイッチの問題を説明するための図である。 変形例の装置構成の例を示す図である。 素性特徴記憶部に記憶される素性の特徴表現の例を示す図である。
以下、本発明の実施形態について、図面を参照しながら説明する。
図1は、本発明の実施形態に係る情報処理装置1の構成図である。情報処理装置1は、記憶部10、入力部12、特徴表現処理部14、分析部16を含む。
記憶部10は、例えばRAM(Random Access Memory)やROM(Read Only Memory)を含む。記憶部10は、特徴表現処理部14が実行するプログラムを格納するとともに、特徴表現処理部14のワークメモリとしても機能する。なお、記憶部10に格納される特徴表現処理部14が実行するプログラムは、電気通信回線を介して提供されるものであってもよいし、半導体記憶素子等のコンピュータで読み取り可能な情報記憶媒体に格納されて提供されるものであってもよい。
本実施形態に係る情報処理装置1の記憶部10には、生データから抽出された生の特徴表現のデータ(以下「生表現」と呼ぶ)が記憶される。
生データは、分析の対象となる個々の主体の特徴となる素性(属性)の情報を含んだデータであり、データの内容やデータ形式等に制限はない。例えば、電子文書(以下単に文書と呼ぶ)等のテクスト型データは生データの一例である。この場合、例えば、個々の文書を分析対象の主体とし、その文書が含む個々の単語をその主体の個々の素性と捉える。また、各人の購買履歴を記録したデータベースのような関係型データやコンテクスト型データも生データの一例である。購買履歴データベースの場合、各人がそれぞれ分析対象の主体であり、そのデータベースに記録されたその主体が購買した各商品がその主体が持つ個々の素性である。なお、生データから得られるどの情報項目を主体及びその主体の素性とするかは、分析目的に応じて適宜定める事項であり、以上に説明したのはあくまで一例に過ぎない。
生表現は、生データから抽出された主体及び素性の対応関係を示す情報である。図2に、文書群から抽出した生表現の一例を示す。図2の生表現は、主体である個々の文書の文書ID(識別情報)に対応付けて、素性である個々の単語がそれぞれその文書に含まれる(値「1」)か含まれない(値「0」)かを表している。これは、個々の主体(文書)の特徴を各素性(単語)の値からなるベクトルで表現したものである。同様に、購買履歴データから得られる生表現の例としては、例えば、人のIDに対して、各商品をその人が購入したか否かを示すベクトルを対応付けたデータを用いてもよい。
なお、図2の例において素性の値として、主体が当該素性を含むか否かの二値データを用いたが、これは一例に過ぎない。素性の値の定め方は、分析の目的に応じて適宜定める事項である。例えば文書の素性の値として、図2のような二値データを用いる代わりに、その素性(単語)がその文書に現れる頻度に対応する値を用いてもよい。
生データからの生表現の生成は従来技術を用いて可能であり、本実施形態では、生成された生表現が記憶部10に用意されているものとする。もちろん、分析を行う際に、本実施形態の装置又は別の装置が生データから生表現を生成してもよい。
入力部12は、例えばキーボードやマウス等であり、ユーザの指示を特徴表現処理部14に伝達する。
特徴表現処理部14は、例えばCPU(Central Processing Unit)を含んでおり、記憶部10に格納されるプログラムを実行することにより、生表現から各主体の新たな特徴表現を生成するための処理を実行する。この新たな特徴表現の生成は、生表現に対するクラスタリングにより行う。すなわち、生表現が表す主体をクラスタリングし、これにより得られる各主体の所属するクラスタの情報を、その主体の新たな特徴とする。本実施形態では、生表現から生成したネットワークに対して、特許文献1〜3等で提案したネットワークのモジュール分解によるクラスタリングを行うことで、主体のクラスタリングを実現する(詳細は後述)。
分析部16は、特徴表現処理部14が生成した特徴表現を用いて、主体の分析を行う。分析部16が行う分析は、従来の手法でよいので、説明は省略する。
特徴表現処理部14について更に詳しく説明する。
従来のクラスタリングは、生表現が表す各主体の特徴、すなわち素性の値のベクトルを、ベクトル空間内での当該主体の位置とし、互いの位置の近さにより主体群を複数のクラスタに分けた。しかし、このような特徴ベクトル同士の距離に基づくクラスタリングは、前述の通り、そのベクトルが持つ個々の素性同士の関係がクラスタリングに反映されない。
また、生表現は、非常にスパース(疎な)であることが多く、非常にスパースなベクトルをベクトルの距離に基づいて正しくクラスタリングすることは難しい。例えば、twitter(登録商標)に投稿されたツイートを分析する場合、それらツイート群に含まれる単語は非常に多様(例えば数千から数万語)であり、それら多様な単語をベクトルの成分(素性)とした場合、個々のツイートにはそれら単語のうちの限られたもの(高々数十語)しか含まれない。したがって、個々のツイートを表す特徴表現のベクトルは、そのツイートが含む限られた各単語についてのみ0より大きい値(例えば1)を持ち、その他の大多数の単語については値が0である、非常にスパースなものとなる。
また、従来のベクトルの距離に基づくクラスタリングは、ベクトル間の距離に依存しすぎているといえる。すなわち、ベクトル同士の近さは、ベクトルの生成等のためにどのような前処理を行うかによって変わるので、距離のみに依存したクラスタリングでは信頼性の高い結果を得ることができない。
そこで、特徴表現処理部14は、生表現に対してベクトルの距離に基づくクラスタリングを行う代わりに、生表現から主体及び素性をそれぞれノードとする二部ネットワークを構成し、その二部ネットワークに対して、ネットワークのモジュール分解によるクラスタリングを行う。
特徴表現処理部14は、機能的に、取得部140、二部ネットワーク生成部142、クラスタリング計算部144及び特徴表現生成部146を含む。
取得部140は、記憶部10から生表現のデータを取得する。
二部ネットワーク生成部142は、その生表現のデータから、主体と素性をそれぞれノードとする二部ネットワークを生成する。二部ネットワークとは、二部グラフとも呼ばれ、ノードの集合が2つの部分集合に分割されており、同じ部分集合内のノード同士の間にリンクがないネットワーク(グラフ)のことである。二部ネットワーク生成部142は、主体のノード群と素性のノード群とを別々の部分集合とする二部ネットワークを生成する。
図2に例示した生表現データから生成される二部ネットワークを図3に例示する。図3では、正方形が主体である文書を示すノードであり、円形が素性である単語を示すノードである。そして、主体のノードと素性のノードを結ぶ直線分がリンクである。この二部ネットワークは、例えば、図2に例示する生表現において、値が1である文書と単語のノード間をリンクで結ぶことにより生成される。この二部ネットワークでは、値が0である文書と単語のノード間にはリンクがない。
なお、生表現が持つ素性の値が図2のように二値の値ではなく、例えば単語の出現頻度のように正の多値の値である場合でも、素性が正値を持つ主体と素性のノード同士をリンクで結び、素性の値が0である主体と素性のノード間にはリンクを設けないことで、二部ネットワークを構成すればよい。この場合、多値の値は、リンクの強さを示す情報として利用してもよい。リンクの強さは、例えば、後述するクラスタリングの計算において、そのリンクを介した遷移の確率(すなわち後述の遷移確率行列Tnm)に反映させてもよい(リンクの強さが大きいほど、そのリンクについての遷移確率の値を高くする等)。
クラスタリング計算部144は、二部ネットワーク生成部142が生成した二部ネットワークを対象として、ネットワークのモジュール分解の手法によるクラスタリングの計算を行う。このネットワークのモジュール分解は、次の式1で表現される。
式1において、p(n)はノードnが持つ確率(そのノードにランダムウォーカーが存在する確率)である。またπkは、クラスタ(コミュニティ)kの事前確率であり、そのクラスタkの重要度を示す。πkのkについての総和は1である。またp(n|k)は、クラスタkにおけるノードnの確率である。Kはクラスタkの総数である。式1は、ノードnの確率p(n)が、各クラスタkにおける当該ノードnの確率p(n|k)の組み合わせに分解できることを表している。
クラスタリング計算部144が用いる具体的な計算手法は、例えば、特許文献1〜3に例示されるものと同様でよい。以下では、具体的な計算処理として、特許文献2及び3に記載された方式と同様の考え方に基づく処理の例を、図4を参照して説明する。
図4の手順では、まずクラスタリング計算部144は、二部ネットワーク生成部142が生成した二部ネットワークについての遷移確率行列Tnmを生成する(S10)。ここで、遷移確率行列Tnmは、ネットワーク内のノードmからノードnへリンクを辿ってエージェント(言い換えれば、ノードmが持つ確率値)が遷移(ランダムウォーク)する確率(すなわ遷移確率)を行列として表現したものである。例えばエージェントがノードから出る1以上のリンクを等確率で選択するとみなした場合、遷移確率行列は、ネットワーク情報が示すネットワークの構造、すなわちノード間がどのようにリンクされているか、のみに依存する。もちろん、ネットワークの構造以外の情報(例えばノードの重要度やリンクの強さ)を考慮に入れて遷移確率行列Tnmを求めることもできるが、この場合も遷移確率行列Tnmはネットワーク情報に基づく点は同様である。なお、二部ネットワークの場合、同じ部分集合に属するノード同士の間にはリンクがないので、遷移確率行列Tnmにおける同じ部分集合内のノード同士の間の遷移確率は0となる。遷移確率行列については、更に特許文献1〜3も参照されたい。
次に、クラスタリング計算部144は、定常リンク確率を計算する(S12)。
この計算では、まずS10で求められた二部ネットワークの遷移確率行列Tnmを用いて、その二部ネットワークにおける確率遷移(ランダムウォーク)の定常状態において各ノードが持つ確率(定常状態のノード確率)を計算する。この計算では、例えば次の式2の計算を定常状態となるまで繰り返す。
式2において、pt(n)は、離散的な時刻tにおいてノードnが持つ確率である。式2を繰り返し計算して定常状態となったときのpt(n)が、ノードnの定常状態でのノード確率pstead(n)である。
次にクラスタリング計算部144は、各ノードnの定常状態でのノード確率pstead(n)から、定常状態でのリンク確率を次の式3に従って計算する。
リンク確率とは、ノード確率pt(n)に対してそのノードから出るリンクl(エル)の遷移確率を乗じたものである。リンクlについての定常状態のリンク確率(式3の左辺)は、そのリンクlの起点のノードの定常状態のノード確率に対して、遷移確率行列Tnmに含まれる、そのリンクlの起点ノードから終点ノードへの遷移確率を乗じたものである。
特許文献2及び3では、D回の仮想的な観測で得られる観測データである通過情報τn (d)(dは1からDまでの整数。nはノードの識別番号)を学習データとして用いた。これに対して以下に説明する例では、観測回数Dが十分大きい(ノード数Nよりもはるかに多い)という妥当な想定の下、τn (d)の代わりに実リンクlに関する通過情報
を用いる。ここでnはノードの識別番号である。またδはクロネッカーのδである。すなわち、式4が定義するノードnの実リンクlに関する通過情報(学習データ)は、そのノードnがその実リンクlの終点ノード(terminal end of link l)又は起点ノード(initial end of link l)に一致する場合に値が1となり、それ以外の場合は値が0となる。クラスタリング計算部144は、二部ネットワークの情報からこのような通過情報を学習用のデータとして生成する。生成した通過情報は、後述するEMアルゴリズムの計算で用いる。
また、この例では、特許文献2等での仮想的な観測の各回dにおける複数のクラスタ(成分)全体に対するクラスタkが占める割合γ(d)(k)の代わりに、実リンクlに関して後述する式(III)で定義される割合γlk(チルダ付き)を用いる。
また、このような観測回数dから実リンクの番号lへの置換えにより、関数の総和の表現は以下のように置き換えられる。
後述する式(I)の右辺第2項は、特許文献2等に説明した同様の式に対してこのような置き換えを行ったものである。
図4の手順の説明に戻ると、次にクラスタリング計算部144は、確率pt(n|k)及び重要度πk new、及び割合γlkの初期値を仮決めし、繰返し回数のカウンタgの値を0に初期化する(S14)。確率pt(n|k)は、クラスタkにおけるノードnの確率である。また、重要度πk newは、クラスタkの重要度である。またγlkは、リンクlにおける、複数のクラスタ全体に対するクラスタkが占める割合である。
次にクラスタリング計算部144は、次に示す式(I),(II),(III)を用いてEM(Expectation and Maximization)アルゴリズムの繰り返し計算を行う。
すなわちまずクラスタリング計算部144は、割合γlkを、式(III)を用いて計算する(S16)(EMアルゴリズムのEステップ)。この計算の最初の繰り返しでは、S14で仮決めした初期値を用いる。
次にクラスタリング計算部144は、現在の確率pt(n|k)及び重要度πk newを一時刻前の値pt-1(n|k)及び重要度πk oldとする置き換えを行う(S18)。そして、式(I)及び(II)に従って、確率pt(n|k)及び重要度πk newを計算する(S20)(EMアルゴリズムのMステップ)。より詳しくは、S20では、まず式(II)に従って新たな重要度πk newを計算し、その後、この新たな重要度を用いて式(I)の計算を行うことで、確率pt(n|k)を求める。ここでαは、正の実数であって、クラスタの大きさを定めるパラメータであり、予め定めた値を用いればよい。
そして、クラスタリング計算部144は、繰り返し計算の回数のカウンタgを1インクリメントし(S22)、そのカウンタgが予め定めた値Gに達したかどうかを判定し(S24)、達していなければS16〜S22の処理を繰り返す。値Gは、本実施形態の計算手法においてS16〜S21の計算が収束するのに必要な繰返し回数であり、実験や経験的知識等により予め定めておく。
S24で、カウンタgが値Gに達したと判定した場合は、繰り返し計算が収束したものとして、処理を終了する。
S24の判定結果がYesとなった後、クラスタリング計算部144は、次式に従ってノードnのクラスタkへの所属度γ(k|n)を計算する。

この式のうちπk及びp(n|k)は、EMアルゴリズムの計算(S16〜S20)の繰り返しにより最終的に求められたπk new及びpt(n|k)である。この式は、πk及びp(n|k)から、ベイズの定理により、ノードnがクラスタkに所属する度合い(所属度)を示すγ(k|n)を計算する式である。
クラスタリング計算部144は、このようにして求めた所属度γ(k|n)をクラスタリング結果として出力する。所属度γ(k|n)は、ノードnのソフトクラスタリングの結果を表す情報である。
また、別の例として、クラスタリング計算部144は、その所属度γ(k|n)を予め定めた閾値で二値化したものをクラスタリング結果として出力してもよい。このクラスタリング結果は、ノードnが、所属度γ(k|n)の値が閾値以上となるクラスタkに対して所属する(二値化結果の値が1)ことを表す。定めた閾値の値によっては、ノードnについて二値化結果が1となるクラスタkが複数ある場合もあるが、これは一種のソフトクラスタリングの結果とみなせる。このような二値化したクラスタリング結果の例を図5に示す。この例では、例えば、主体ID=1の主体は、クラスタID=C2、C4の2つのクラスタに属すると判定されている。主体IDはノードの番号nに対応し、クラスタIDはクラスタの番号kに対応する。
またクラスタリング計算部144は、繰り返し計算で用いたk=1〜K(クラスタ総数)のK個のクラスタ全部についてのクラスタリング結果のうち、重要ないくつかのクラスタについてのクラスタリング結果のみを抽出し、最終的なクラスタリング結果として出力してもよい。重要なクラスタは、重要度πkに基づき判定すればよい。例えば、繰り返し計算が収束したときに得られた最終的な重要度πkが予め定めた閾値以上となるクラスタkを重要なクラスタとして抽出したり、その重要度πkが上位から所定順位以内にあるクラスタkを重要なクラスタとして抽出したりすればよい。
なお、S28における収束の判定では、図4に例示した方法の代わりに、特許文献1〜3で説明したものと同様の、繰り返し毎の評価値Qの変化量が微小な値(閾値未満)となったときに、繰り返し計算が収束したと判定してもよい。
図4の手順は、特許文献2及び3の計算手法と同様の手法を用いたものであったが、二部ネットワークのクラスタリングに特許文献1の計算手法と同様の手法を用いてもよい。また、特許文献1〜3の手法はいずれもネットワーク上でのノード間の確率の遷移を離散的なマルコフ連鎖として取り扱うものであったが、離散的なマルコフ連鎖の代わりに、連続時間マスター方程式等のような連続的なマルコフ過程をベースとした計算手法をもちいてもよい。
このようにしてクラスタリング計算部144によるクラスタリングが完了すると、そのクラスタリング結果を用いて特徴表現生成部146が、各主体についての新たな特徴表現を生成する。
特徴表現生成部146は、例えば、クラスタリング計算部144から得たクラスタリング結果における個々の主体に関する情報を、その主体の新たな特徴表現として生成する。この例では、例えば、図5のクラスタリング結果に応じて、主体ID=1の主体の新たな特徴表現をベクトル(0,1,0,1,・・・,0)とする(ベクトルの成分数はK個)。なお、クラスタリング結果が、クラスタに属するか否かの二値ではなく、クラスタに属する度合い(例えば前述の所属度γ(k|n))の数値(0以上1以下の実数)である場合も同様に、そのクラスタリング結果における個々の主体に関する情報を、その主体の新たな特徴表現として用いてよい。
また、別の例では、特徴表現生成部146は、図6に例示する結合表現を、主体についての新たな特徴表現として生成してもよい。この結合表現は、生表現と追加表現を結合したものである。このうちの追加表現は、クラスタリング計算部144から得たクラスタリング結果における個々の主体に関する情報である。
特徴表現生成部146が生成した各主体についての新たな特徴表現のデータは分析部16に供給される。分析部16は、それら各主体の特徴表現を用いて、個々の主体やそれら主体同士の関係の分析を実行する。
なお、クラスタリング計算部144の計算によれば、素性についてもクラスタリング結果が得られる。そこで特徴表現生成部146は、素性のクラスタリング結果から、素性の特徴表現を生成してもよい。生成する素性の特徴表現は、例えば、主体の追加表現と同様、素性がそれぞれ各クラスタに属するか否か、又は各クラスタにそれぞれどの程度属するか(まったく属さない場合は値が0)、を示す情報(例えばベクトル表現)である。
以上に説明したように、本実施形態では、与えられた生表現から、主体及び素性をそれぞれノードした二部ネットワークを構成し、この二部ネットワークに対してノード間の確率の遷移の過程の繰り返し計算を行うことで、それらノードのクラスタリングを行う。
もともとの生表現に素性同士の関連を示すデータは明示的には含まれないので、二部ネットワークには素性のノード同士を直接結ぶリンクはない。しかし、素性のノードは、その素性を持つ主体のノードとリンクでつながっており、その主体のノードを介して、その主体が持つ他の素性のノードと間接的に繋がっている。互いに関連する主体同士は共通の素性を持っている蓋然性が高く、逆に互いに関連する素性同士は共通の主体に属している蓋然性が高い。このため、本来関連性の強い素性のノード同士は、多くの主体ノードを介して2リンクの距離で接続されている蓋然性が高く、それらノード同士の間に直接のリンクがなくても、二部ネットワークのクラスタリングにより同じクラスタに分類されやすい。したがって、関連性の強い主体同士が共通の素性を持たない場合でも、クラスタリングの計算において、その素性と同じクラスタに分類される蓋然性が高い他の素性を介する確率の遷移により、それら主体同士の関連度合いが顕在化され、それら主体同士が同じクラスタに分類されやすくなる。このように、本実施形態の手法では、ベクトルの距離に基づくクラスタリング手法では計算に入れることができなかった素性間の関連性を、クラスタリングに反映させることが可能になる。
また、上述した主体と素性の二部ネットワークを構成し、これをクラスタリングするという方法によれば、上述のメカニズムにより、主体とその主体が持たない素性との関連性もクラスタリング結果に反映される。したがって、生表現自体がスパースであっても、ベクトル同士の距離に基づくクラスタリングより、妥当性の高いクラスタリング結果が得られる。
また、上述した主体と素性の二部ネットワークのクラスタリングは、ベクトル間の距離を用いるものではないので、クラスタリング結果はベクトル間の距離に依存しすぎることはない。
<確率スイッチに対する対処>
さて、二部ネットワークにマルコフ連鎖の繰り返し計算では、主体のノードが持つ確率は次のステップで必ず素性のノードに遷移し、素性のノードが持つ確率は次のステップで必ず主体のノードに移動する。このため、計算の繰り返しステップ毎に主体のノード群と素性のノード群との間で確率が行ったり来たりすることとなり、計算が非常に収束しづらい(あるいは収束しない)。
例えば、図7に示す例は、初期の時点で二部ネットワークの主体ノードの部分集合SAに属するノードが持つ確率の合計P(SA)が0.99であり、素性ノードの部分集合SBに属するノードが持つ確率の合計P(SB)が0.01である場合を示している。この初状態からマルコフ連鎖の計算を1ステップ進めると、P(SA)=0.01、P(SB)=0.99となり、更に1ステップ進めると、P(SA)=0.99、P(SB)=0.01となる。以降、部分集合毎の確率の合計値が、2つの部分集合の間で行ったり来たりする。個々のノードの確率は、リンクされた別のノードからの確率の遷移に応じて個別に変化するものの、部分集合毎の合計値はステップ毎に大きく偏った値となり、その偏りが保存される。この偏りが、個々のノードの確率が収束することを妨げる。
このような問題を、確率スイッチと呼ぶこととする。以下では、この確率スイッチの問題を解決するための手法を提案する。
第1の手法は、マルコフ連鎖の繰り返し演算に用いるノードの確率の初期値を、主体ノードの確率の合計値と、素性ノードの確率の合計値とが等しくなるように設定することである。
より具体的には、例えば、クラスタリング計算部144は、上述の図3の手順のS12におけるノード確率の定常状態の計算(式2の繰り返し)における各ノードnの確率pt(n)の初期値p0(n)を、主体ノード群の初期値の合計と、素性ノード群の初期値の合計とが等しい(すなわち合計値が共に0.5となる)という拘束条件を満たすように決定する。
また別の例では、クラスタリング計算部144は、図4の手順のS14で、確率pt(n|k)の初期値を、主体ノード群についての合計と素性ノード群についての合計が等しくなるという拘束条件の下で仮決めする。
また、各ノードnの確率pt(n)の初期値と、確率pt(n|k)の初期値の両方について、主体ノード群についての合計と素性ノード群についての合計が等しくなるという拘束条件に従って決めてもよい。
このように初期値を設定することで、主体ノードの部分集合と素性ノードの部分集合との間に確率の偏りがなくなるので、上述した確率スイッチによる収束の妨げが解消又は緩和される。
ここでは、主体ノードの確率初期値の合計と、素性ノードの確率初期値の合計とが等しくなるように初期設定を行うとしたが、それら合計同士が完全に等しくなくてもよく、それら合計同士が実質的に等しいとみなせる程度に近ければ足りる。ここで「実質的に等しい」とは、二部ネットワークについての上述のEMアルゴリズムの計算が許容範囲の繰返し回数以内で収束する程度に、主体ノードの確率初期値の合計と素性ノードの確率初期値の合計との差が小さいことを意味する。
確率スイッチの問題に対処する第2の手法は、クラスタリングの計算において、時間的に離散的なマルコフ連鎖のモデルの代わりに、時間的に連続的なマルコフ過程のモデルに基づく計算を用いることである。連続的なマルコフ過程の計算モデルの例には、例えば連続時間マスター方程式がある。
連続時間マスター方程式を用いた場合のノードnの確率の時間変化は、次の式5により表される。
この式5から次の式6が得られる。
ここでΔtは、0より大きく1より小さい微小時間である。なお、式6においてΔt=1とすると、上述の離散的なマルコフ連鎖の場合の式2と同じ式となる。
この式6において、次式に示すディリクレ分布を想定する。
この場合、EMアルゴリズムの計算式(I’)〜(III’)は次のようになる。
式中のγ(k|l)及びτ(n|l)は、上述の(I)式におけるγlk及びτn (l)にそれぞれ対応する。
クラスタリング計算部144は、図4の処理手順のS16及びS20において、上述した式(I’)〜(III’)を用いた計算を行い、この計算をG回繰り返す。
上述の離散マルコフ連鎖の例(式(I)〜(III))では、時間間隔Δt=1ごとに、すべてのノードが持つ確率が一斉に遷移するために、上述の確率スイッチの問題が生じた。これに対してこの連続時間マスター方程式に基づく計算(式(I’)〜(III’))では、時間間隔1の間にすべてのノードの確率が遷移するものの、全ノードの確率が同じタイミングで一斉に遷移するのではなく、微小な時間間隔Δtごとばらばらに遷移する。したがって、上述した確率スイッチの問題は解消又は緩和される。
<新たな生データからの主体の特徴表現の簡易的な計算>
以上に説明した二部ネットワークのクラスタリング及びこれに基づく特徴表現の生成は、マルコフ連鎖等の繰り返し計算を行う必要があるため、計算のために長い時間がかかる。したがって、いったんクラスタリングの結果が得られた後、新たな生データ(あるいはこれに基づく生表現)が追加される度にその生データを二部ネットワークに組み込んでクラスタリングを行うのでは、計算に多大の時間がかかってしまう。そこで、以下では、いったん得られたクラスタリングの結果を利用して、その後に追加された生データに対する特徴表現を簡易的に計算する変形例を示す。
図8に、この変形例の情報処理装置1の構成を例示する。この変形例の情報処理装置1では、特徴表現処理部14に素性特徴記憶部150及び特徴表現簡易計算部152の機能が追加されている。また特徴表現生成部146は、主体特徴生成部147及び素性特徴生成部148の機能を備える。その他の点は、図1に示した上記実施形態の情報処理装置1と同様である。
主体特徴生成部147は、クラスタリング結果における個々の主体に関する情報(例えば図5に例示したもの)を、クラスタに関する主体の特徴表現として生成する。生成する特徴表現は、図6に例示した追加表現に相当する。特徴表現生成部146は、この追加表現を、生表現とは異なる主体の新たな特徴表現として出力してもよいし、生表現と結合して結合表現(図6参照)を生成し、この結合表現を主体の新たな特徴表現として出力してもよい。
素性特徴生成部148は、クラスタリング計算部144による各素性のクラスタリング結果から、各素性について、その素性の特徴表現を生成する。この特徴表現は、主体の追加表現(図6参照)と同様、素性がそれぞれ各クラスタに属するか否か、又は各クラスタにそれぞれどの程度属するか(まったく属さない場合は値が0)、を示す情報(例えばベクトル表現)であってよい。
素性特徴記憶部150は、素性特徴生成部148が生成した各素性の特徴表現のデータを記憶する。ここで、素性特徴記憶部150には、大量の生表現のデータからクラスタリング計算部144の上述のEMアルゴリズムによる学習により求められた各素性の特徴表現が既に記憶されているものとする。
特徴表現簡易計算部152は、その学習の後に新たに1以上の主体に関する生表現が情報処理装置1に入力された場合に、この情報処理装置1に新たに入力された生表現に含まれる主体についての新たな特徴表現を、素性特徴記憶部150に記憶された素性の特徴表現を用いて、それら各主体についての新たな特徴表現を計算する。
特徴表現簡易計算部152が行う計算は、次の式7に基づく。
ここで、τは主体の生表現であり、ωは学習により求められた素性の特徴表現である。この式の左辺は、主体の生表現がベクトルτであるという条件の下でのクラスタkの確率(条件付き確率)を示す。この条件付き確率p(k|τ)は、主体τがクラスタkに属する度合いと捉えてよく、上述した実施形態でのノードn(主体τに対応)がクラスタkに属する度合いを示す所属度γ(k|n)と実質的に等しい。この変形例ではこれを主体τのクラスタリング結果に基づく特徴表現とする。式7は、その条件付き確率p(k|τ)が、素性の生表現がベクトルωであるという条件の下でのクラスタkの確率p(k|ω)と、主体の生表現がベクトルτであるという条件の下での素性ωの確率p(ω|τ)と、の積をωについて総和したものと実質的に等しいことを示している。このうちp(k|ω)は、素性ωがクラスタkに属する度合いと捉えてよく、これは素性ωのクラスタリング結果に基づく特徴表現であり、この値として素性特徴記憶部150に記憶された各素性の特徴表現が利用可能である。またp(ω|τ)は、主体τが持つ各素性ωの値を、合計が1になるように規格化することで求めればよい。
以下、具体例を用いて説明する。例えば、主体τの生表現が次の式8で表される場合を考える。
この主体τの生表現のベクトルを規格化することで、上述の式9に示すように確率p(ω|τ)が求められる。
ここで、主体τの生表現のベクトルの3,6,8番目の成分に対応する素性ω3、ω6、ω8の特徴表現(素性特徴記憶部150に記憶されたもの)が次に示すものであったとする。これら特徴表現は、式7における確率p(k|ω)に対応する。
この場合、式7より、主体τの特徴表現p(k|τ)は、p(k|ω)とp(ω|τ)の積のωについての総和であり、次のように計算される。
以上説明したように、この変形例によれば、学習の結果求められた素性の特徴表現を用いることで、その学習の後に入力された生表現が表す主体の新たな特徴表現(クラスタに関する特徴表現)が生成される。
以上、本発明の実施形態を説明した。以上に例示した情報処理装置1は、コンピュータに上述の各機能を表すプログラムを実行させることにより実現される。ここで、コンピュータは、例えば、ハードウエアとして、CPU等のマイクロプロセッサ、ランダムアクセスメモリ(RAM)およびリードオンリメモリ(ROM)等のメモリ(一次記憶)、フラッシュメモリやSSD(ソリッドステートドライブ)、HDD(ハードディスクドライブ)や等の固定記憶装置を制御するコントローラ、各種I/O(入出力)インタフェース、ローカルエリアネットワークなどのネットワークとの接続のための制御を行うネットワークインタフェース等が、たとえばバス等を介して接続された回路構成を有する。それら各機能の処理内容が記述されたプログラムがネットワーク等の経由でフラッシュメモリ等の固定記憶装置に保存され、コンピュータにインストールされる。固定記憶装置に記憶されたプログラムがRAMに読み出されCPU等のマイクロプロセッサにより実行されることにより、上に例示した機能モジュール群が実現される。
1 情報処理装置、10 記憶部、12 入力部、14 特徴表現処理部、16 分析部、140 取得部、142 二部ネットワーク生成部、144 クラスタリング計算部、146 特徴表現生成部、147 主体特徴生成部、148 素性特徴生成部、150 素性特徴記憶部、152 特徴表現簡易計算部。

Claims (7)

  1. コンピュータを、
    各主体が持つ各素性を表す入力データを取得する手段、
    前記入力データに含まれる前記各主体及び前記各素性をそれぞれノードとし、前記主体に対応するノードと、その主体が持つ各素性に対応する各ノードと、をリンクで結んだ二部ネットワークを生成する生成手段、
    前記二部ネットワークにおけるリンクを介するノード間の遷移の確率過程の繰り返し計算を実行することにより、前記ノード群のクラスタリングを行うクラスタリング手段、
    として機能させるためのプログラム。
  2. 前記コンピュータを、
    前記クラスタリング手段による前記クラスタリングの結果を用いて、前記各主体につき、クラスタリングの観点でのその主体の特徴を表す主体クラスタ特徴データを生成する主体特徴生成手段、
    として更に機能させるための請求項1に記載のプログラム。
  3. 前記コンピュータを、
    前記クラスタリング手段による前記クラスタリングの結果を用いて、前記各素性につき、クラスタリングの観点でのその素性の特徴を表す素性クラスタ特徴データを生成する素性特徴生成手段、
    として更に機能させるための請求項1又は2に記載のプログラム。
  4. 前記コンピュータを、
    前記入力データに含まれない新たな主体について、前記新たな主体が持つ各素性を表すデータが入力された場合に、前記入力データに対する前記クラスタリングの結果を用いて前記素性特徴生成手段が生成した前記各素性の前記素性クラスタ特徴データを用いて、クラスタリングの観点での前記新たな主体の特徴を表す特徴データを生成する手段、
    として更に機能させるための請求項3に記載のプログラム。
  5. 前記クラスタリング手段は、前記確率過程における各ノードの初期値を、前記主体に対応するノード群の初期値の合計と前記素性に対応するノードの初期値の合計とが実質的に等しいという条件を満たすように設定し、設定した各ノードの初期値を用いて前記繰り返し計算を実行する、こと特徴とする請求項1〜4のいずれか1項に記載のプログラム。
  6. 前記クラスタリング手段は、前記確率過程の繰り返し計算として、離散時間モデルではなく連続時間モデルを用いて計算を行う、ことを特徴とする請求項1〜4のいずれか1項に記載のプログラム。
  7. 各主体が持つ各素性を表す入力データを取得する手段と、
    前記入力データに含まれる前記各主体及び前記素性をそれぞれノードとし、前記主体に対応するノードと、その主体が持つ各素性に対応する各ノードと、をリンクで結んだ二部ネットワークを生成する生成手段と、
    前記二部ネットワークにおけるリンクを介するノード間の遷移の確率過程の繰り返し計算を実行することにより、前記ノード群のクラスタリングを行うクラスタリング手段と、
    を有する情報処理装置。
JP2017034888A 2017-02-27 2017-02-27 プログラム及び情報処理装置 Pending JP2018142095A (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2017034888A JP2018142095A (ja) 2017-02-27 2017-02-27 プログラム及び情報処理装置
US15/692,375 US11068525B2 (en) 2017-02-27 2017-08-31 Non-transitory computer readable medium, information processing apparatus, and information processing method
CN201711062209.0A CN108509971A (zh) 2017-02-27 2017-11-02 信息处理设备和信息处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017034888A JP2018142095A (ja) 2017-02-27 2017-02-27 プログラム及び情報処理装置

Publications (1)

Publication Number Publication Date
JP2018142095A true JP2018142095A (ja) 2018-09-13

Family

ID=63246874

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017034888A Pending JP2018142095A (ja) 2017-02-27 2017-02-27 プログラム及び情報処理装置

Country Status (3)

Country Link
US (1) US11068525B2 (ja)
JP (1) JP2018142095A (ja)
CN (1) CN108509971A (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112612967B (zh) * 2020-09-11 2023-07-18 辽宁师范大学 基于链接聚类和约简的协同过滤推荐方法
US20230214881A1 (en) * 2021-12-31 2023-07-06 Synamedia Limited Methods, Devices, and Systems for Dynamic Targeted Content Processing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5895813B2 (ja) 2012-01-18 2016-03-30 富士ゼロックス株式会社 プログラム及び検索装置
US9424307B2 (en) * 2012-10-11 2016-08-23 Scott E. Lilienthal Multivariate data analysis method
US9679247B2 (en) * 2013-09-19 2017-06-13 International Business Machines Corporation Graph matching
JP6390239B2 (ja) 2014-07-25 2018-09-19 富士ゼロックス株式会社 情報処理装置、及びプログラム
JP6511951B2 (ja) 2015-05-14 2019-05-15 富士ゼロックス株式会社 情報処理装置及びプログラム

Also Published As

Publication number Publication date
CN108509971A (zh) 2018-09-07
US11068525B2 (en) 2021-07-20
US20180247225A1 (en) 2018-08-30

Similar Documents

Publication Publication Date Title
JP6962532B1 (ja) 事象予測装置および事象予測用プログラム
Mauá et al. Credal sum-product networks
Bonner et al. Temporal neighbourhood aggregation: Predicting future links in temporal graphs via recurrent variational graph convolutions
Ding et al. Node embedding via word embedding for network community discovery
Qian et al. A probabilistic framework for location inference from social media
Huang et al. Conditional diffusion based on discrete graph structures for molecular graph generation
Tang et al. Bayesian augmented Lagrangian algorithm for system identification
Chen et al. Litegt: Efficient and lightweight graph transformers
Song et al. An improved structure learning algorithm of Bayesian Network based on the hesitant fuzzy information flow
JP2018142095A (ja) プログラム及び情報処理装置
Pan et al. Solving statistical mechanics on sparse graphs with feedback-set variational autoregressive networks
Zhu et al. Ontology learning from incomplete semantic web data by belnet
Ayday et al. A belief propagation based recommender system for online services
CN114842247A (zh) 基于特征累加的图卷积网络半监督节点分类方法
Xiao et al. Self-optimizing feature transformation
Wang et al. Knockoffs-SPR: Clean Sample Selection in Learning With Noisy Labels
Liu et al. A Bayesian classifier learning algorithm based on optimization model
Lin et al. Graph Neural Stochastic Diffusion for Estimating Uncertainty in Node Classification
Lamine et al. The threshold EM algorithm for parameter learning in bayesian network with incomplete data
Wang Markov chain Monte Carlo sampling using a reservoir method
Hauser et al. Probabilistic forecasting of symbol sequences with deep neural networks
Lampert et al. The Self-Loop Paradox: Investigating the Impact of Self-Loops on Graph Neural Networks
Mrabah et al. Beyond The Evidence Lower Bound: Dual Variational Graph Auto-Encoders For Node Clustering
Nair et al. Study of machine learning techniques for sentiment analysis
Marco et al. Missing Data Imputation Via Stacked Denoising Autoencoder Combined with Dropout Regularization Based Small Dataset in Software Effort Estimation.

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200121

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20210129

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210209

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20210817