JP2017152042A - グラフ理論を用いた解析方法、解析プログラムおよび解析システム - Google Patents

グラフ理論を用いた解析方法、解析プログラムおよび解析システム Download PDF

Info

Publication number
JP2017152042A
JP2017152042A JP2017093522A JP2017093522A JP2017152042A JP 2017152042 A JP2017152042 A JP 2017152042A JP 2017093522 A JP2017093522 A JP 2017093522A JP 2017093522 A JP2017093522 A JP 2017093522A JP 2017152042 A JP2017152042 A JP 2017152042A
Authority
JP
Japan
Prior art keywords
data
graph
relationship
vector
vectorized
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2017093522A
Other languages
English (en)
Other versions
JP6370961B2 (ja
Inventor
横山 淳
Atsushi Yokoyama
淳 横山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
IMATRIX Corp
Original Assignee
IMATRIX Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by IMATRIX Corp filed Critical IMATRIX Corp
Priority to JP2017093522A priority Critical patent/JP6370961B2/ja
Publication of JP2017152042A publication Critical patent/JP2017152042A/ja
Priority to PCT/JP2018/018137 priority patent/WO2018207874A1/ja
Priority to CN201880003912.0A priority patent/CN109844742B/zh
Priority to EP18798040.4A priority patent/EP3506131A4/en
Priority to US16/335,314 priority patent/US20190370274A1/en
Application granted granted Critical
Publication of JP6370961B2 publication Critical patent/JP6370961B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/16Matrix or vector computation, e.g. matrix-matrix or matrix-vector multiplication, matrix factorization
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/28Determining representative reference patterns, e.g. by averaging or distorting; Generating dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/216Parsing using statistical methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computing Systems (AREA)
  • Algebra (AREA)
  • Discrete Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】ノード間の複雑な関連性を解析することができるグラフ理論を用いた解析方法を提供する。
【解決手段】グラフ理論を用いた解析方法は、収集した学習用データに基づき辞書を生成するステップS104と、収集した評価用データに基づき従来型のグラフデータを作成するステップS112と。辞書に格納されたベクトルデータを参照し、ノード間の予測した関係をベクトル化するステップS116と、関係ベクトルを作成済みの従来型のグラフに割り当て、N次元のベクトル化グラフデータを生成するステップS118と、を含む。
【選択図】図14

Description

本発明は、グラフ理論を用いた解析方法に関し、グラフ理論により多義的あるいは複雑な関連性を解析する方法に関する。
ユーザーの嗜好を抽出するための手法として、分析の対象となる文章データからユーザーの興味のある単語等を抽出するものがある。例えば、特許文献1は、複数のユーザーが作成する文章から統一的に嗜好を表すデータを抽出する方法を開示する。また、特許文献2は、単語同士の意味が近いほど単語同士の距離が近くなる意味空間を利用し、複数の単語の意味空間における分布からオブジェクトを表す確率分布を推定し、類似度を算出する方法を開示する。
特開2017−27168号公報 特開2017−27106号公報
自然言語の解析方法として、評価する単語を予め定義し、それの出現有無をデータとする「Bag of Words」というものがある。この方法は、予め定義された単語の出現有無を判断するため、定義されていない単語は扱えず、また、語順などを考慮することができない。例えば、図1に示す「This is a pen」のテキストデータを、単語毎に切り離し、「this」が定義された単語であれば、それがヒットしたことを示すデータ「1」が生成される。
また、テキストデータをN文字毎に区切り(Nは、1以上の整数)、それらの出現有無をデータとする「N-gram」という自然言語の解析方法がある。例えば、図1に示す「This is a pen」を、2グラムで解析する場合、このテキストデータは、「Th」、「hi」、「is」のように2文字毎に切り離され、それらがヒットしたことを示すデータ「1」が生成される。
さらに、単語を機械学習技術を用いてベクトル化する解析方法がある。例えば、図1に示す「This is a pen」の単語を辞書と比較し、単語間の意味的な類似関係をベクトルで表すことができる。このような単語のベクトル化は、単語の意味的な特徴が反映された意味ベクトル、あるいは分散表現であり、word2vecのような技術を実施することで生成することができる。word2vecの特徴として、(1)類似した単語は類似したベクトルとなる、(2)ベクトル成分は意味をもつ、(3)ベクトル同士の演算が可能である。例えば、「王様−男+女=女王」のような演算が可能である。また、word2vecのような単語をベクトル化するものの他にも、文書、製品、質問等をベクトル化する、sent2vec、product2vec、query2vec、med2vecなどがある。
また、データ構造の解析方法として、グラフ理論が知られている。グラフ理論は、ノード(頂点)とエッジ(辺)の集合で構成されるグラフであり、このグラフにより様々な事象の関連性を表すことができる。例えば、図2(A)に示すように、ノードA、B、C、Dが、各エッジによって連結され、エッジの方向は、ノード間の関連性の方向を表す。このグラフをデータ化したものが図2(B)である。図3に示す重み付けグラフ理論は、エッジに重み付けをしたもの、つまりエッジを定量化したものである。例えば、ノードAからノードBへの関連性を表す重みWABは、0.8で表され、ノードBからノードCへの関連性を表す重みWBCは、0.2で表される。
グラフ理論や重み付けグラフ理論は、ノード間の関係をエッジの有無、または1つの値(スカラー)で一義的にしか表現できないため、ノード間の関係の記述性が乏しく、ノード間の多義的な関係、あるいは複雑な関係を表現することは難しい。
本発明は、このような従来の課題を解決するものであり、複雑な関連性を解析することができるグラフ理論を用いた解析方法を提供することを目的とする。
本発明に係る解析方法は、ノード間の関連性を表すグラフ理論を用いた解析方法であって、辞書データに基づきノード間の関連性を表すN次元のベクトルを算出するステップと、算出されたN次元のベクトルによりベクトル化されたグラフデータを作成するステップと、を含む。
好ましくは前記算出するステップは、テキストデータから単語を抽出し、単語間の意味的な類似度を表すN次元のベクトルを算出する。好ましくは前記辞書データは、単語間の類似度を表すベクトルデータを含む。好ましくは前記算出するステップは、学習用データをword2vecにより処理することで単語間の類似度を表すベクトルデータを生成することを含む。好ましくは前記算出するステップは、解析対象のデータからノード間の関係を予測し、前記辞書データを参照して予測した関係をベクトル化する。好ましくは前記算出するステップは、解析対象のデータを形態素解析し、解析された単語の平均ベクトルに基づきノード間の関係を予測する。好ましくは解析方法はさらに、ベクトル化されたグラフデータを他のグラフデータに変換するステップを含む。好ましくは前記変換するステップは、ベクトル化されたグラフデータのベクトルの内積を計算することで重み付けされたグラフデータに変換することを含む。好ましくは解析方法はさらに、ベクトル化されたグラフデータに基づきノード間の関連性を解析するステップを含む。好ましくは前記解析するステップは、人間関係を解析する。好ましくは前記解析するステップは、ベクトル化されたグラフデータに基づきノード間の全ベクトルの平均ベクトルを計算し、平均ベクトルと類似する類似のベクトルを辞書から選択し、選択された類似のベクトルの単語を抽出する。
本発明に係る解析方法は、ノード間の人間関係を表すグラフ理論を用いたものであって、単語間の類似度を表すベクトルデータを辞書データとして用意し、解析対象のデータからノード間の人間関係を予測し、予測した人間関係を前記辞書データを参照してベクトル化し、人間関係をN次元のベクトルによりベクトル化されたグラフデータを作成し、作成されたベクトル化グラフデータに基づき人間関係を解析する。
本発明に係るグラフ理論を用いた解析プログラムは、コンピュータ装置が実行するものであって、辞書データに基づきノード間の関連性を表すN次元のベクトルを算出するステップと、算出されたN次元のベクトルによりベクトル化されたグラフデータを作成するステップとを含む。本発明に係るグラフ理論を用いた解析システムは、辞書データに基づきノード間の関連性を表すN次元のベクトルを算出する算出手段と、算出されたN次元のベクトルによりベクトル化されたグラフデータを作成する作成手段とを含む。
本発明によれば、グラフ理論におけるノード間の関連性をN次元のベクトルにより定義するようにしたので、ノード間の複雑な関連性を表し、かつ解析することができる。
従来の自然言語の解析例を説明する図である。 一般的なグラフ理論を説明する図である。 重み付けグラフ理論を説明する図である。 本発明のベクトル化グラフ理論を説明する図である。 本発明のベクトル化グラフ理論を人間関係に応用した例を示す図である。 本発明のベクトル化グラフ理論から特定の関係を抽出する例を示す図である。 本発明のベクトル化グラフ理論から強度を抽出する例を説明する図である。 本発明のベクトル化グラフ理論における他のグラフへの変換例を説明する図である。 本発明のベクトル化グラフ理論による同一階層の複雑な関係の記述例を示す図である。 本発明のベクトル化グラフ理論による他の階層層の関係の記述例を示す図である。 本発明の実施例によるベクトル化グラフ理論を用いた解析システムの構成例を示す図である。 図12(A)は、学習用データの一例、図12(B)は、評価用データの一例である。 図13(A)は、辞書データの一例であり、図13(B)は、ベクトル化グラフデータを説明する図である。 本実施例のベクトル化モジュールの動作フローである。 図15(A)は、通常のグラフデータ、図15(B)は、重み付けされた重み付けグラフデータの例示である。 本実施例によるベクトル化モジュールの具体例を示す動作フローである。 本実施例のグラフ変換モジュールの動作フローであり、図17(A)は、関係抽出するときの動作フロー、図17(B)は、関係強度を抽出するときの動作フローである。 本実施例のグラフ解析モジュールの動作フローの一例である。 本実施例のベクトル化グラフ解析モジュールの動作フローの一例である。
次に、本発明に係るグラフ理論を用いた解析装置の実施形態について図面を参照して詳細に説明する。図4は、本発明によるベクトル化グラフ理論の概要を説明する図であり、図4(A)は、ノードとエッジとを含むグラフの一例、図4(B)は、ノード間の関連性をN次元でベクトル化した例、図4(C)は、N次元のベクトル化グラフデータの一例である。
図4(A)に示すように、ノードA、B、C、Dは、それぞれエッジにより関係性が示されている。エッジは、あるノードからあるノードへの関連性を示すベクトルであり、例えば、ノードAからノードBへの関与は、ベクトルXABで表され、ノードDからノードAへの関与は、ベクトルXDAで表される。ここで、ベクトルの出発点のノードを「ソース」、到着点のノードを「ディスティネーション」とする。
本発明のベクトル化グラフ理論では、図4(B)に示すように、ソースとディスティネーションとの関連性を、N次元のベクトルによって定義される(Nは、2以上の整数)。N次元のベクトルは、ソースとディスティネーション間の複雑な関係、多義的な関係、異なる階層間の関係などを表すことができる。N次元のベクトルは、例えば、ソースとディスティネーションとの意味的な類似関係を表した数値化した意味ベクトル、またはソースとディスティネーションとの意味的な類似関係を数値化した分散表現であり得る。ソースとディスティネーションとの関係がN次元のベクトルにより定義されたとき、図4(C)に示すようなベクトル化グラフデータが得られる。
図5は、本発明のベクトル化グラフ理論により人間関係を表した例である。同図(A)において、ノードA〜Dは、人物または人物と等価なものを表し、各ノードは、人的関係を表すベクトルによって連結されている。例えば、ノードAがノードBに対して好きという感情をもち、ノードBがノードDに対して妬みという感情をもち、ノードDがノードAに対して嫌いという感情をもち、ノードBとノードCがそれぞれ相互に信頼という感情をもつことが示されている。同図(B)は、図5(A)の関係を表したN次元のベクトルであらわしたベクトル化グラフデータである。例えば、「好き」という感情にも色々あり、つまり、「好き」の度合(「大好き」、「少し好き」など)や、好きの対象(「顔が好き」、「目が好き」、「性格が好き」など)などの種々の意味合いが含まれる。N次元のベクトルは、こうした「好き」という概念を複数の多義的な観点から数値化したベクトルであるとも言える。本例の場合、ノードAからノードBへの「好き」は、図5(B)の「好き」のN次元のベクトルによって関連性が定義されている。
ベクトル化グラフ理論は、人間関係の関連性を表す他にも、例えば、インターネットのネットワークにおいてウェブページのリンク関係をベクトル化したり、ユーザーと商品との関係においてユーザーの購買動機をベクトル化することも可能である。
本発明のベクトル化グラフ理論により生成されたベクトル化グラフデータは、他のグラフ理論のためのグラフデータに変換可能である。例えば、ベクトル化グラフデータを参照し、そのノード間を表すベクトルに何らかの内積計算を算出することで、重み付けグラフ理論のためのグラフデータを算出することができる。また、重み付けグラフ理論のグラフデータの閾値を計算することで、通常のグラフ理論のためのグラフデータを算出することができる。その変化の一例を図6に示す。各関係ベクトルと信頼ベクトルの内積を取り、得られたスカラーを各関係の信頼値とすることで、図6(A)に示すようなベクトル化グラフ理論から、図6(B)に示す信頼を表す重み付けグラフ理論への変換が可能である。この時、信頼ベクトルは、word2vecなどのベクトルデータを算出する過程で得られたベクトルを用いることができる。これにより、信頼の度合を示す重み付けグラフを得ることができる。同様に、図6(C)に示す嫌いグラフへ変換する場合には、各関係と嫌いベクトルとの内積を取ることで、嫌いの度合を示すグラフを得ることができる。ここで、ノードA、B間のベクトルは、「好き」であり、「嫌い」とは正反対であるため、両者のベクトルの内積は小さくなる。このようにベクトル化グラフから様々な関係を表すグラフに変換することができる。
さらに本発明のベクトル化グラフ理論は、感情や関係の強度を表すグラフ理論にも変換可能である。例えば、図7(A)に示すようなベクトル化グラフがあるとき、各関係ベクトルが自己との内積を取ることで、図7(B)に示すようなノード間の感情や関係の強さのみを抽出することができる。
図8は、本発明のベクトル化グラフ理論の変換関係を説明する図である。同図に示すように、本発明のベクトル化グラフ10に何らかの内積計算をすることで重み付けグラフ20に変換することができ、重み付けグラフ20は閾値計算をすることで通常のグラフ30に変換することができる。この変換は、上位から下位に向けて可能であり、下位から上位に変換することはできないことに留意すべきである。
本発明のベクトル化グラフ理論は、複雑なあるいは多義的な関係を記述できる為、従来のグラフ理論では難しかった複数階層に跨る関係記述も可能である。図9は、3階層に跨る場合の関係図である。例えば、下位層(ノード40−7、40−8、40−9)がハードウエア、中間層(ノード40−4、40−5、40−6)がソフトウエア、上位層(ノード40−1、40−2、40−3)がユーザーなどの場合が考えられる。
上記複数階層に跨るベクトル化グラフ理論の具体例を図10に示す。例えば、ユーザーAは、ブラウザを操作し、そのブラウザはパーソナルコンピュータPCのオペレーティングシステムOS上にプリインストールされたものであり、オペレーティングシステムはパーソナルコンピュータPCにインストールされたものであり、パーソナルコンピュータPCがサーバーと通信し、また、オーディオ・ビデオAVがオペレーティングシステムOSを監視する。さらに、ユーザーAがアプリケーションを操作し、そのアプリケーションはスマートフォンAにインストールされたものである。ユーザーBがアプリケーションを操作し、そのアプリケーションはスマートフォンBにインストールされたものであり、スマートフォンA、B間で無線通信を行い、ユーザーCが、サーバーを管理する。このような複数の階層間の関連性をベクトル化グラフ理論によって表すことができる。
本発明のベクトル化グラフ理論は、1つまたは複数のコンピュータ装置、あるいはネットワークを介して接続されたコンピュータ装置またはサーバーにおけるハードウエア、ソフトウエア、あるいはソフトウエアとハードウエアとの組合せにより実施される。
次に、本発明の実施例について説明する。図11は、本発明の実施例に係るベクトル化グラフ理論を用いた解析システムの全体構成を示すブロック図である。本実施例の解析システム100は、学習用データ110、評価用データ120、ベクトル化モジュール130、ベクトル化グラフデータ140、ベクトル化グラフ解析モジュール150、グラフ変換モジュール160、グラフデータ170、グラフ解析モジュール180を含む。好ましくは、解析システム100は、メモリ等の記憶媒体や、ソフトウエア/プログラム等を実行するためのプロセッサ等を備えた汎用的なコンピュータ装置によって実施される。1つの態様では、コンピュータ装置は、ベクトル化モジュール130、グラフ変換モジュール160、ベクトル化グラフ解析モジュール150、およびグラフ解析モジュール180の機能を実行するためのソフトウエア/プログラムを実行し、ノード間の関連性の解析結果をディスプレイ等の表示手段から出力することができる。
学習用データ110は、解析システム100の学習のために用いられるデータである。例えば、解析システム100は、学習用データを機械学習処理することで、word2vecなどから得られるベクトルデータ(例えば、単語間の意味的な類似関係をベクトルで表したデータ)を生成し、これを辞書に格納する。種々の学習機能を実行することで、解析効率や解析精度が向上される。例えば、解析システム100が複雑な人間関係などを解析する場合には、そのために必要な学習用データを処理し、そのためのベクトルデータを備えていることが望ましい。学習データ110は、記憶媒体から読み出され、あるいは外部(例えば、記憶装置やネットワークを介してリソース)から取り込まれる。学習用データ110は、上記のN次元のベクトル生成に使用される文書データである。例えば、図12(A)に示すように、青空文庫の文章や、wikipediaの文書や、コーパスなど種々の情報や媒体が用いられる。
一方、評価用データ120は、解析システム100により解析されるデータであり、記憶媒体から読み出され、あるいは外部から取り込まれる。人間関係の解析を行う場合、評価用データ120は、例えば、図12(B)に示すように、複数の人物が登場し、その中で種々の情報のやり取りが記載された電子メールであることができる。
ベクトル化モジュール130は、評価用データ120から、人間関係の類推を行う。その類推された関係を、生成したN次元のベクトルデータを用いて、ベクトル化する。1つの例では、AさんからBさんへのメールを形態素解析し、全単語の平均ベクトルを、AさんとBさんの関係、および関係ベクトルとみなす。その関係ベクトルと最も近いベクトルを上記辞書に格納されたベクトルデータから抽出し、そのベクトルが示す関係を、AさんとBさんの関係とみなす。AさんからBさんへのメールなので、メールの全文章に両者の関係と相関する単語が使用されていることが想定される。それ故、全単語の平均ベクトルによりAさんとBさんの関係が類推される。なお、AさんからBさんへのメールは、例えば、複数の受信メールの中から、送信者の名前、受信者の名前を識別することで抽出するようにしてもよい。
また、ベクトル化モジュール130により学習用データ110が処理されるとき、その学習結果は辞書にベクトルデータとして格納される。図13(A)に辞書に格納されるベクトルデータの一例を示す。辞書データは、ノード間の関連性を表す単語をN次元でベクトル化するためのベクトルデータを含んでいる。例えば、辞書に格納された「好き」という単語のN次元のベクトルデータを参照して、図13(B)に示すようなソースとディスティネーションとのノード間の関係を表すN次元のベクトル化グラフデータが生成される。
ベクトル化モジュール130により評価用データ120が処理されるとき、ベクトル化モジュール130は、辞書に格納されたベクトルデータを参照し、評価用データ120のノード間の関連性を表すN次元のベクトルを抽出し、つまり、ソースとディスティネーションとの関係をN次元でベクトル化したベクトル化グラフデータを生成する。図13(B)は、ベクトル化グラフデータの一例であり、ソースとディスティネーションとがN次元のベクトルにより定義される。生成されたベクトル化グラフデータは、記憶媒体に格納され、その後、ベクトル化グラフ解析モジュール150により解析される。
図14に、ベクトル化モジュール130の動作フローを示す。解析システム100が学習機能を実行する場合、ベクトル化モジュール130は、学習用データ110を収集し(S100)、収集したデータに基づきベクトルデータを生成し(S102)、生成したベクトルデータを辞書に格納する(S104)。
他方、解析システム100が評価用データを解析する場合、ベクトル化モジュール130は、評価用データ120を収集し(S110)、収集したデータに基づき従来型のグラフデータを作成する(S112)。従来型のグラフは、例えば、図15(A)に示すように、ソースとディスティネーションとの関係を表したグラフ、あるいは図15(B)に示すように、ソースとディスティネーションとの関係を重み付けで表した重み付けグラフであり、N次元でベクトル化されていないグラフである。次に、ベクトル化モジュール130は、辞書に格納されたベクトルデータを参照し、ノード間の予測した関係をベクトル化し(S116)、そのベクトルを作成済みの従来型のグラフに割り当て、N次元のベクトル化グラフデータを生成する(S118)。生成されたベクトル化グラフデータは、ベクトル化グラフ解析モジュール150へ提供され、そこで解析が行われる。
図16に、ベクトル化モジュール130の具体的な動作フローを示す。学習機能が実行されるとき、ベクトル化モジュール130は、学習用テキストファイルを収集し(S200)、word2vecを実行してベクトルデータを生成し(S202)、生成したベクトルデータを辞書に格納する(S204)。また、解析が実行されるとき、ベクトル化モジュール130は、評価用電子メールを収集し(S210)、送信者と受信者間のグラフを作成し(S212)、送信者と受信者間の電子メールの文章から関係を予測し(S214)、辞書を参照して予測した関係をベクトル化し(S216)、関係ベクトルを作成済みのグラフに割り当て、ベクトル化グラフを生成する(S218)。
次に、グラフ変換モジュール160について説明する。図17(A)は、グラフ変換モジュール160により関係を抽出するときの動作フローである。関係の抽出は、例えば、図6(B)、(C)に示すような信頼グラフや嫌いグラフの抽出である。グラフ変換モジュール160は、ベクトル化モジュール130により生成されたベクトルデータから抽出ベクトルを入力する(S300)。抽出ベクトルは、例えば、信頼グラフを生成する場合には、図6(A)の信頼ベクトルである。次に、グラフ変換モジュール160は、抽出ベクトルと全関係ベクトルの内積を計算し(S302)、上記内積を重みとする重み付けグラフを作成する(S304)。
図17(B)は、グラフ変換モジュール160により関係強度を抽出するときの動作フローである。関係強度の抽出は、例えば、図7に示すような感情の強さのみの抽出である。この場合には、グラフ変換モジュール160は、各関係ベクトルの自己との内積を計算し(S310)、次に、上記内積を重みとする重み付けグラフを作成する(S312)。
グラフ変換モジュール160の変換結果は、グラフデータ170として記憶媒体に格納される。グラフデータ170は、図15(A)、(B)に示すように、ベクトル化されていない通常のグラフデータや、重み付けされた重み付けグラフデータである。
グラフ解析モジュール180は、グラフデータ170に基づきグラフを解析する。図18にグラフ解析モジュール180の動作フローの一例を示す。グラフ理論には、“密度”という指標があり、それを計算するフローである。グラフ解析モジュール180は、グラフデータ170を入力し(S400)、入力されたグラフデータに基づきノード数を取得し(S402)、かつエッジ数を取得し(S404)、上記ノード数およびエッジ数から密度を計算する(S406)。密度の計算は、density=m/n(n−1)で表される。nは、ノード数、mは、エッジ数である。
ベクトル化グラフ解析モジュール150は、ベクトル化グラフデータ140に基づきベクトル化グラフを解析する。図19に、本実施例のベクトル化グラフ解析モジュール190の動作フローの一例を示す。ここでは、全関係ベクトルの平均をとった平均ベクトルを求める例である。例えば、解析対象が組織内の人間関係であるとき、平均ベクトルにより組織内の均した関係がわかる。
ベクトル化グラフ解析モジュール150は、ベクトル化グラフデータ140を入力し(S500)、入力されたベクトル化グラフデータに基づき全関係ベクトルの平均ベクトルを計算する(S502)。関係ベクトルとは、ノード間の関係を表すベクトルである。次に、ベクトル化グラフ解析モジュール150は、辞書データから上記平均ベクトルと類似のベクトルを取得し(S504)、類似のベクトルの単語を抽出する(S506)。この単語から、例えば、組織内の平均的な関係がわかる。
本発明のベクトル化グラフ理論は、上記の説明以外にも、従来のグラフ理論への応用が可能である。例えば、指数に関しては、ノード(次数)、部分・ルート(次数、距離)、グラフ(密度、相互性、推移性)、グラフ間(同型)に応用することが可能であり、問題に関しては、ノード(ランキング問題、分類)、部分・ルート(クラスタリング、リンク予測、最小全域木問題、最短経路問題)、グラフ(頂点彩色問題)に応用することが可能である。
以上、本発明の好ましい実施の形態について詳述したが、本発明は、特定の実施形態に限定されるものではなく、特許請求の範囲に記載された発明の要旨の範囲において、種々の変形、変更が可能である。
100:解析システム
110:学習用データ
120:評価用データ
130:ベクトル化モジュール
140:ベクトル化グラフデータ
150:ベクトル化グラフモジュール
160:グラフ変換モジュール
170:グラフデータ
180:グラフ解析モジュール

Claims (14)

  1. ノード間の関連性を表すグラフ理論を用いた解析方法であって、
    辞書データに基づきノード間の関連性を表すN次元のベクトルを算出するステップと、
    算出されたN次元のベクトルによりベクトル化されたグラフデータを作成するステップと、を含む解析方法。
  2. 前記算出するステップは、テキストデータから単語を抽出し、単語間の意味的な類似度を表すN次元のベクトルを算出する、請求項1に記載の解析方法。
  3. 前記辞書データは、単語間の類似度を表すベクトルデータを含む、請求項1または2に記載の解析方法。
  4. 前記算出するステップは、学習用データをword2vecにより処理することで単語間の類似度を表すベクトルデータを生成することを含む、請求項1ないいし3いずれか1つに記載の解析方法。
  5. 前記算出するステップは、解析対象のデータからノード間の関係を予測し、前記辞書データを参照して予測した関係をベクトル化する、請求項1ないし4いずれか1つに記載の解析方法。
  6. 前記算出するステップは、解析対象のデータを形態素解析し、解析された単語の平均ベクトルに基づきノード間の関係を予測する、請求項5に記載の解析方法。
  7. 解析方法はさらに、ベクトル化されたグラフデータを他のグラフデータに変換するステップを含む、請求項1ないし6いずれか1つに記載の解析方法。
  8. 前記変換するステップは、ベクトル化されたグラフデータのベクトルの内積を計算することで重み付けされたグラフデータに変換することを含む、請求項6に記載の解析方法。
  9. 解析方法はさらに、ベクトル化されたグラフデータに基づきノード間の関連性を解析するステップを含む、請求項1ないし8いずれか1つに記載の解析方法。
  10. 前記解析するステップは、人間関係を解析する、請求項9に記載の解析方法。
  11. 前記解析するステップは、ベクトル化されたグラフデータに基づきノード間の全ベクトルの平均ベクトルを計算し、平均ベクトルと類似する類似のベクトルを辞書から選択し、選択された類似のベクトルの単語を抽出する、請求項9または10に記載の解析方法。
  12. ノード間の人間関係を表すグラフ理論を用いた解析方法であって、
    単語間の類似度を表すベクトルデータを辞書データとして用意し、
    解析対象のデータからノード間の人間関係を予測し、
    予測した人間関係を前記辞書データを参照してベクトル化し、人間関係をN次元のベクトルによりベクトル化されたグラフデータを作成し、
    作成されたベクトル化グラフデータに基づき人間関係を解析する、解析方法。
  13. コンピュータ装置が実行するグラフ理論を用いた解析プログラムであって、
    辞書データに基づきノード間の関連性を表すN次元のベクトルを算出するステップと、
    算出されたN次元のベクトルによりベクトル化されたグラフデータを作成するステップと、を含む解析プログラム。
  14. グラフ理論を用いた解析システムであって、
    辞書データに基づきノード間の関連性を表すN次元のベクトルを算出する算出手段と、
    算出されたN次元のベクトルによりベクトル化されたグラフデータを作成する作成手段と、を含む解析システム。

JP2017093522A 2017-05-10 2017-05-10 グラフ理論を用いた解析方法、解析プログラムおよび解析システム Active JP6370961B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017093522A JP6370961B2 (ja) 2017-05-10 2017-05-10 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
PCT/JP2018/018137 WO2018207874A1 (ja) 2017-05-10 2018-05-10 グラフ理論を用いた解析方法、解析プログラムおよび解析システム
CN201880003912.0A CN109844742B (zh) 2017-05-10 2018-05-10 分析系统
EP18798040.4A EP3506131A4 (en) 2017-05-10 2018-05-10 ANALYSIS METHOD USING GRAPHICAL THEORY, ANALYSIS PROGRAM AND ANALYSIS SYSTEM
US16/335,314 US20190370274A1 (en) 2017-05-10 2018-05-10 Analysis Method Using Graph Theory, Analysis Program, and Analysis System

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017093522A JP6370961B2 (ja) 2017-05-10 2017-05-10 グラフ理論を用いた解析方法、解析プログラムおよび解析システム

Publications (2)

Publication Number Publication Date
JP2017152042A true JP2017152042A (ja) 2017-08-31
JP6370961B2 JP6370961B2 (ja) 2018-08-08

Family

ID=59740869

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017093522A Active JP6370961B2 (ja) 2017-05-10 2017-05-10 グラフ理論を用いた解析方法、解析プログラムおよび解析システム

Country Status (5)

Country Link
US (1) US20190370274A1 (ja)
EP (1) EP3506131A4 (ja)
JP (1) JP6370961B2 (ja)
CN (1) CN109844742B (ja)
WO (1) WO2018207874A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
WO2020050706A1 (ko) * 2018-09-06 2020-03-12 엘지전자 주식회사 워드벡터 보정 방법
CN111241095A (zh) * 2020-01-03 2020-06-05 北京百度网讯科技有限公司 用于生成节点的向量表示的方法和装置
US11256869B2 (en) 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11099975B2 (en) 2019-01-24 2021-08-24 International Business Machines Corporation Test space analysis across multiple combinatoric models
US11106567B2 (en) 2019-01-24 2021-08-31 International Business Machines Corporation Combinatoric set completion through unique test case generation
US11263116B2 (en) 2019-01-24 2022-03-01 International Business Machines Corporation Champion test case generation
US11232020B2 (en) 2019-06-13 2022-01-25 International Business Machines Corporation Fault detection using breakpoint value-based fingerprints of failing regression test cases
US11422924B2 (en) * 2019-06-13 2022-08-23 International Business Machines Corporation Customizable test set selection using code flow trees

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2008112432A (ja) * 2006-10-06 2008-05-15 Nippon Hoso Kyokai <Nhk> 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
US20110270604A1 (en) * 2010-04-28 2011-11-03 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
JP2012103820A (ja) * 2010-11-08 2012-05-31 Vri Inc 情報提供装置、方法およびプログラム
WO2016093831A1 (en) * 2014-12-09 2016-06-16 Facebook, Inc. Generating user notifications using beacons on online social networks

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007062885A1 (en) * 2005-11-29 2007-06-07 International Business Machines Corporation Method and system for extracting and visualizing graph-structured relations from unstructured text
CN103049490B (zh) * 2012-12-05 2016-09-07 北京海量融通软件技术有限公司 知识网络节点间属性生成系统及生成方法
US20140236577A1 (en) * 2013-02-15 2014-08-21 Nec Laboratories America, Inc. Semantic Representations of Rare Words in a Neural Probabilistic Language Model
CN104809108B (zh) * 2015-05-20 2018-10-09 元力云网络有限公司 信息监测分析系统
KR101697875B1 (ko) * 2015-10-30 2017-01-18 아주대학교산학협력단 그래프 모델에 기반하는 문서 분석 방법 및 그 시스템

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5619709A (en) * 1993-09-20 1997-04-08 Hnc, Inc. System and method of context vector generation and retrieval
JPH09288675A (ja) * 1996-04-22 1997-11-04 Sharp Corp 検索装置
JP2005122510A (ja) * 2003-10-17 2005-05-12 Nippon Telegr & Teleph Corp <Ntt> 話題構造抽出方法及び装置及び話題構造抽出プログラム及び話題構造抽出プログラムを記録したコンピュータ読み取り可能な記憶媒体
JP2008112432A (ja) * 2006-10-06 2008-05-15 Nippon Hoso Kyokai <Nhk> 人間関係グラフ生成装置及びコンテンツ検索装置、並びに、人間関係グラフ生成プログラム及びコンテンツ検索プログラム
US20110270604A1 (en) * 2010-04-28 2011-11-03 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
JP2012103820A (ja) * 2010-11-08 2012-05-31 Vri Inc 情報提供装置、方法およびプログラム
WO2016093831A1 (en) * 2014-12-09 2016-06-16 Facebook, Inc. Generating user notifications using beacons on online social networks

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
YUAN, YANHONG ET AL.: "A New Approach to Embedding Semantic Link Network with Word2Vec Binary Code", 2015 11TH INTERNATIONAL CONFERENCE ON SEMANTICS, KNOWLEDGE AND GRIDS(SKG), JPN6018023879, 10 March 2016 (2016-03-10), pages 9 - 16, ISSN: 0003824880 *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2019074982A (ja) * 2017-10-18 2019-05-16 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
JP7016237B2 (ja) 2017-10-18 2022-02-04 三菱重工業株式会社 情報検索装置、検索処理方法、およびプログラム
WO2020050706A1 (ko) * 2018-09-06 2020-03-12 엘지전자 주식회사 워드벡터 보정 방법
US11256869B2 (en) 2018-09-06 2022-02-22 Lg Electronics Inc. Word vector correction method
CN111241095A (zh) * 2020-01-03 2020-06-05 北京百度网讯科技有限公司 用于生成节点的向量表示的方法和装置
CN111241095B (zh) * 2020-01-03 2023-06-23 北京百度网讯科技有限公司 用于生成节点的向量表示的方法和装置

Also Published As

Publication number Publication date
EP3506131A4 (en) 2019-08-21
US20190370274A1 (en) 2019-12-05
JP6370961B2 (ja) 2018-08-08
EP3506131A1 (en) 2019-07-03
CN109844742A (zh) 2019-06-04
WO2018207874A1 (ja) 2018-11-15
CN109844742B (zh) 2020-10-09

Similar Documents

Publication Publication Date Title
JP6370961B2 (ja) グラフ理論を用いた解析方法、解析プログラムおよび解析システム
Zhou et al. A machine learning approach to customer needs analysis for product ecosystems
Ganganwar et al. Implicit aspect extraction for sentiment analysis: A survey of recent approaches
Kanakaraddi et al. Comparison study of sentiment analysis of tweets using various machine learning algorithms
KR20230104181A (ko) 의미 맵의 생성 시에 데이터 아이템 지문을 재사용하기 위한 방법 및 시스템
Ramshankar et al. A novel recommendation system enabled by adaptive fuzzy aided sentiment classification for E-commerce sector using black hole-based grey wolf optimization
Iparraguirre-Villanueva et al. Sentiment analysis of tweets using unsupervised learning techniques and the k-means algorithm
Jain et al. Sentiment analysis: An empirical comparative study of various machine learning approaches
Abualigah et al. Survey on Twitter sentiment analysis: Architecture, classifications, and challenges
Shaik et al. Recurrent neural network with emperor penguin-based Salp swarm (RNN-EPS2) algorithm for emoji based sentiment analysis
Mallik et al. A novel approach to spam filtering using semantic based naive bayesian classifier in text analytics
Bakkialakshmi et al. Anomaly detection in social media using text-mining and emotion classification with emotion detection
Masrani Twitter Sentiment Analysis Using a Modified Naïve Bayes Algorithm
Pandey et al. Improved exponential cuckoo search method for sentiment analysis
Sisodia et al. Performance evaluation of learners for analyzing the hotel customer sentiments based on text reviews
Komamizu et al. Exploring Identical Users on GitHub and Stack Overflow.
Wijaya et al. Sentiment Analysis Covid-19 Spread Tracing on Google Play Store Application
Štefánik Methods for Estimating and improving robustness of language models
Hirchoua et al. Topic hierarchies for knowledge capitalization using hierarchical Dirichlet processes in big data context
Soni et al. Performance improvement of naïve bayes classifier for sentiment estimation in ambiguous tweets of US airlines
Xiang et al. A novel sentiment analysis method based on multi-scale deep learning
Pandita et al. A literature survey of sentiment analysis based on E-commerce reviews
Roy et al. Quantifying semantic proximity between contexts
Dutta et al. Sentiment detection in online content: a WordNet based approach
Laurenceau et al. Examining Bias in Sentiment Analysis Algorithms Interacting with Emojis with Skin Tone Modifiers

Legal Events

Date Code Title Description
A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20170721

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20170905

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20171102

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180130

A601 Written request for extension of time

Free format text: JAPANESE INTERMEDIATE CODE: A601

Effective date: 20180327

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180419

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20180626

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20180626

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20180710

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20180711

R150 Certificate of patent or registration of utility model

Ref document number: 6370961

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250