JP6468364B2 - 情報処理装置、情報処理方法、及び、プログラム - Google Patents

情報処理装置、情報処理方法、及び、プログラム Download PDF

Info

Publication number
JP6468364B2
JP6468364B2 JP2017552506A JP2017552506A JP6468364B2 JP 6468364 B2 JP6468364 B2 JP 6468364B2 JP 2017552506 A JP2017552506 A JP 2017552506A JP 2017552506 A JP2017552506 A JP 2017552506A JP 6468364 B2 JP6468364 B2 JP 6468364B2
Authority
JP
Japan
Prior art keywords
terms
distance
weight
term
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017552506A
Other languages
English (en)
Other versions
JP2018517963A (ja
Inventor
シルバ ダニエル ゲオルグ アンドラーデ
シルバ ダニエル ゲオルグ アンドラーデ
晃裕 田村
晃裕 田村
正明 土田
正明 土田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JP2018517963A publication Critical patent/JP2018517963A/ja
Application granted granted Critical
Publication of JP6468364B2 publication Critical patent/JP6468364B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Description

本発明は、情報処理システム、情報処理方法、及び、コンピュータにより読み取り可能な記録媒体に関する。
テキスト分類やクラスタリングのための最も効果的なベクタ表現の一つとして、テキスト文書のBOW(bag-of-words)表現が知られている。BOW表現では、nを語彙(ボキャブラリ)中の単語数とした場合、各単語がn次元の重みベクトルの次元に相当する。重みベクトルのi番目の次元は、語彙のi番目(i=1,...,n)の単語の重みを表す。単語の重みには、テキスト文書に単語が出現した回数(頻度)やtf−id(Term Frequency、Inverse Document Frequency)のような他の重みが用いられる。
しかしながら、BOW表現の主要な欠点として、単語間の意味的な関係性を表せないことが挙げられる。例えば、単語「park」を含み「meadow」を含んでいないテキストは、実際には、単語「meadow」を含み「park」を含んでいないテキストと類似している可能性がある。しかしながら、BOW表現では、「meadow」と「park」を同義語と考えることはできず、「I love playing soccer in the park.」と「I like playing in the meadows.」のような二つのテキストが類似していることを検出できない。
この問題に対する一つの解決方法は、非特許文献1に記載されているように、例えば、LSI(Latent-Semantic-Indexing)やLDA(Latent Dirichlet Allocation)を用いて、テキスト表現をより低次元の意味的空間に写像することである。しかしながら、これらの方法では、既知である、単語の類似性情報を用いることができない。
単語の類似性情報を用いることができる他の解決方法として、非特許文献2には、BOC(bag-of-clusters)表現が開示されている。BOC表現では、与えられた単語の類似性を単語のクラスタの生成に用い、テキストをクラスタにより表現する。
図10は、BOC表現の例を示す図である。図10の例では、語彙{「love」,「play」,「soccer」,「park」,「baseball」,「meadows」}に対して、四つのクラスタC1:={「meadows」,「park」}、C2:={「soccer」,「baseball」}、C3:={「play」}、及び、C4:={「love」}が生成されている。テキスト「I love playing soccer in the park」に対しては、BOC表現{f_C1=1,f_C2=1,f_C3=1,f_C4=1}が生成される。ここで、f_Cxは、クラスタxに対する重みを示す。また、テキスト「I love playing baseball in the meadows」に対しても、同じBOC表現が生成される。BOC表現は、図10に示すように、グループ内のすべての単語が同じ重みを有するBOWモデルとみなすことができる。
なお、関連技術として、特許文献1には、文書データが属するスタイルに基づき、文書データについての単語の発生頻度を抑える方法が開示されている。特許文献2には、評価表現を含む文、含まない文の特徴データを用いて、文中において欠落している評価表現を補完する技術が開示されている。特許文献3には、連続マハラノビスDP(Dynamic Programming)を用いた音声認識方法が開示されている。
特開2014−170377号公報 特開2010−146171号公報 特開平04−233599号公報
P. D. Turney、P. Pantel、"From Frequency to Meaning: Vector Space Models of Semantics"、Journal of Artificial Intelligence Research、Vol. 37、pp.141-188、2010年 R. Bekkerman、R. El-Yaniv、N. Tishby、Y. Winter、"Distributional Word Clusters vs. Words for Text Categorization"、Journal of Machine Learning Research、Vol. 3、pp.1183-1208、2003年 C. E. Rasmussen, C. K. I. Williams、"Gaussian Processes for Machine Learning"、the MIT Press、2006年 "word2vec"、Google Inc.、[online]、[2015年4月10日検索]、インターネット<https://code.google.com/p/word2vec/> P. Soucy、Guy W. Mineau、"Beyond TFIDF Weighting for Text Categorization in the Vector Space Model"、Proceedings of the 19th International Joint Conference on Artificial Intelligence (IJCAI 2005)、pp.1130-1135、2005年
非特許文献2に記載されているBOC表現では、テキスト文書によっては、単語のクラスタにより、表現が粗くなるという問題がある。このため、BOC表現では、テキストの分類やクラスタリングに必要な情報が失われてしまう。
図11は、BOC表現の他の例を示す図である。図11の例では、クラスタSPORT:={「tennis」,「baseball」,「sports」,「soccer」}が生成されている。ここで、テキスト「After school, it is recommended that children should do some sports, like tennis or baseball. ...」に対して、一般的なスポーツについてのテキストであることを示すBOC表現が生成される。この場合、クラスタSPORTを用いたBOC表現は適切といえる。しかしながら、他のテキスト「In order to play tennis one needs among others, a racket and a net. ...」のように、一般的なスポーツよりむしろテニスについてのテキストであっても、単語「tennis」がクラスタSPORTに属するため、同じBOC表現が生成される。この場合、このテキストがテニスについてのテキストであるという情報が失われてしまう。
本発明の目的は、上述の課題を解決し、テキストに関連するものの当該テキストには明示的に出現しない単語の重みを増やすことができる、情報処理システム、情報処理方法、及び、コンピュータにより読み取り可能な記録媒体を提供することである。
本発明の一態様における情報処理システムは、複数の用語の内の任意の二つの用語間の距離であって、二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段と、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける、前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と他の用語間の距離、及び、当該他の用語の重みに基づいて調整する調整手段と、を備える。
本発明の一態様における情報処理方法は、複数の用語の内の任意の二つの用語間の距離であって、二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と他の用語間の距離、及び、当該他の用語の重みに基づいて調整する。
本発明の一態様におけるコンピュータが読み取り可能な記憶媒体は、コンピュータに、複数の用語の内の任意の二つの用語間の距離であって、二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と他の用語間の距離、及び、当該他の用語の重みに基づいて調整する、処理を実行させるプログラムを格納する。
本発明の効果は、テキストを表す重みベクトルにおいて、テキストに関連するものの当該テキストには明示的に出現しない単語の重みを増やすことができることである。
本発明の第1の実施形態の特徴的な構成を示すブロック図である。 本発明の第1の実施形態における、調整システム100の構成を示すブロック図である。 本発明の第1の実施形態における、調整システム100がコンピュータ上で実現された場合の、調整システム100の構成を示すブロック図である。 本発明の第1の実施形態における、調整システム100の処理を示すフローチャートである。 本発明の第1の実施形態における、重み調整の例を示す図である。 本発明の第1の実施形態における、重み調整の他の例を示す図である。 本発明の第2の実施形態における、tf−idf単語重みの例を示す図である。 本発明の第2の実施形態における、tf−idf単語重みの他の例を示す図である。 本発明の第3の実施形態における、調整システム100の構成を示すブロック図である。 BOC表現の例を示す図である。 BOC表現の他の例を示す図である。
(第1の実施形態)
本発明の第1の実施形態について説明する。
はじめに、本発明の第1の実施形態の構成について説明する。図2は、本発明の第1の実施形態における、調整システム100の構成を示すブロック図である。調整システム100は、本発明の情報処理システムの一実施形態である。図2を参照すると、本発明の第1の実施形態における調整システム100は、距離記憶部110、調整部120、及び、分類部130を含む。
距離記憶部110は、複数の単語(語彙)の内、任意の二つの単語(または用語とも記載する)間の距離を記憶する。ここで、二つの単語間の距離は、二つの用語が意味的に類似しているほど小さくなる。距離は、ユーザにより、例えば単語類似性マトリクスとして、距離記憶部110に予め設定される。
二つの単語間の距離には、二つの単語のそれぞれを表す特徴ベクトル間のマハラノビス距離や他の任意の距離を用いることができる。単語の特徴ベクトルには、Word Embeddingが用いられてもよい。Word Embeddingは、例えば、非特許文献4に記載されているword2vecにより計算される。また、単語の特徴ベクトルには、各単語についてのトピック分布p(topic|w)が用いられてもよい。トピック分布は、例えば、LDAを用いて計算される。
また、単語の特徴ベクトルは、ローカルな単語ウィンドウに関するコンテキスト情報、及び/または、グローバルなコンテキスト(トピックに関するコンテキスト)情報を含んでいてもよい。単語の特徴ベクトルが、ローカルな単語ウィンドウに関するコンテキスト情報を含む場合、二つの単語が同じ単語に囲まれる傾向にあれば、当該二つの単語間の距離は小さくなる。単語の特徴ベクトルが、グローバルなコンテキスト情報を含む場合、二つの単語が同じテキストで出現する傾向にあれば、当該二つの単語間の距離は小さくなる。
調整部120は、分類対象の各テキストの重みベクトルを取得する。重みベクトルは、上述のBOWに相当し、テキストを表す。重みベクトルは、複数の単語(語彙)の重みを含む。
調整部120は、重みベクトルの複数の単語(語彙)の各々の重みを、各単語と他の単語間の距離、及び、当該他の単語の重みに基づいて調整する。ここで、調整部120は、各単語の重みを、例えば、各単語と他の単語間の距離が小さくなり、他の単語の重みが大きくなるほど、増えるように調整する。
分類部130は、調整済みの重みベクトル(調整済みBOW表現)を用いて、テキスト分類を行う。
なお、調整システム100はCPU(central processing unit)とプログラムを記憶する記憶媒体を含み、当該プログラムに基づく制御に従って動作する、コンピュータでもよい。図3は、本発明の第1の実施形態における、調整システム100がコンピュータ上で実現された場合の、調整システム100の構成を示すブロック図である。
図3を参照すると、調整システム100は、CPU101、記憶デバイス102(記憶媒体)、通信デバイス103、キーボード等の入力デバイス104、及び、ディスプレイ等の出力デバイス105を含む。CPU101は、調整部120、及び、分類部130を実現するためのコンピュータプログラムを実行する。記憶デバイス102は、距離記憶部110の情報を記憶する。通信デバイス103は、他の装置から、テキストと当該テキストの重みベクトルを受信し、当該テキストに対するテキスト分類の結果を当該装置へ送信してもよい。入力デバイス104は、ユーザからテキスト分類の指示を受け付けてもよい。出力デバイス105は、テキスト分類の結果をユーザに出力(表示)してもよい。
また、調整システム100の各構成要素は、独立した論理回路で実現されてもよい。また、調整システム100の構成要素は、有線または無線回線で相互に接続された複数の装置に、それぞれ配置されてもよい。
次に、本発明の第1の実施形態における調整システム100の動作について説明する。
図4は、本発明の第1の実施形態における、調整システム100の処理を示すフローチャートである。調整部120は、分類対象のテキストの重みベクトルを取得する(ステップS101)。調整部120は、距離記憶部110から、重みベクトルにおける各単語と他の単語間の距離を読み出し、重みベクトルにおける各単語の重みを、各単語と他の単語間の距離、及び、当該他の単語の重みに基づいて調整する(ステップS102)。分類部130は、調整済みの重みベクトルを用いて、テキスト分類を行う(ステップS103)。
図5は、本発明の第1の実施形態における、重み調整の例を示す図である。例えば、調整部120は、テキスト「After school, it is recommended that children should do some sports, like tennis or baseball. ...」について、図5に示すような、元の重みベクトルを取得する。当該元の重みベクトルでは、単語「soccer」、「racket」、「net」、及び、「court」がテキストに無いため、これらの単語の重みに0が設定されている。ここで、単語「sports」、「baseball」、「soccer」、及び、「tennis」が互いに近い(意味的に類似している)と仮定する。また、単語「tennis」、「racket」、「net」、及び、「court」も互いに近いと仮定する。この場合、単語「soccer」は、重みが「1」である三つの単語(「sports」、「baseball」、及び、「tennis」)に近いため、当該単語の重みは「0.9」まで増やされる。一方、単語「racket」、「net」、及び、「court」は、重みが「1」である一つの単語「tennis」だけに近いため、これらの単語の重みは0近くに保たれる。
図6は、本発明の第1の実施形態における、重み調整の他の例を示す図である。例えば、調整部120は、テキスト「In order to play tennis one needs among other, a racket and a net. ...」について、図6に示すような、他の元の重みベクトルを取得する。当該元の重みベクトルでは、単語「school」、「children」、「sports」、「baseball」、「soccer」、及び、「court」がテキストに無いため、これらの単語の重みに0が設定されている。この場合、単語「court」は、重みが「1」である三つの単語(「tennis」、「racket」、及び、「net」)に近いため、当該単語の重みは「0.9」まで増やされる。一方、単語「sports」、「baseball」、及び、「soccer」は、重みが「1」である一つの単語「tennis」だけに近いため、これらの単語の重みは0近くに保たれる。
このように、図5における重みベクトルは、「sports」に関連する単語の重みが増えるように調整され、図6における重みベクトルは、「tennis」に関連する単語の重みが増えるように調整される。
分類部130は、調整済みの重みベクトル(調整済みBOW表現)を用いて、これらのテキストに対して正確な分類結果を得ることができる。
次に、本発明の第1の実施形態の特徴的な構成を説明する。
図1は、本発明の第1の実施形態の特徴的な構成を示すブロック図である。
図1を参照すると、調整システム100(情報処理システム)は、距離記憶部110、及び、調整部120を含む。距離記憶部110は、複数の用語の内の任意の二つの用語間の距離を記憶する。二つの用語間の距離は、二つの用語が意味的に類似しているほど小さくなる。調整部120は、複数の用語の重みを含み、テキストを表す重みベクトルにおける、複数の用語の各々の重みを、当該重みベクトルにおける各用語と他の用語間の距離、及び、当該他の用語の重みに基づいて調整する。
本発明の第1の実施形態によれば、テキストを表す重みベクトルにおいて、テキストに関連するものの当該テキストには明示的に出現しない単語の重みを増やすことができる。その理由は、調整部120が、テキストについての重みベクトルの、各用語と他の用語間の距離、及び、当該他の用語の重みに基づいて、各用語の重みを調整するためである。これにより、テキストについて、0の要素がより少なく、意味的情報をより多く含む、より豊かなBOW表現が得られる。その結果、このような豊かなBOW表現を、テキストの分類やクラスタリング用いることができる。
(第2の実施形態)
次に、本発明の第2の実施形態について説明する。本発明の第2の実施形態では、単語の真の重みは観測されず、ノイズによって分散される潜在的な変数であると仮定する。また、重みベクトルは、ノイズモデルに基づいて調整(推定)されると仮定する。
距離記憶部110は、i番目(i=1,...,n)の単語とj番目(j=1,...,n)の単語との間の距離ri,jを記憶する。
調整部120は、距離記憶部110に記憶された単語間の距離から、すべての単語についての共分散行列を計算する。共分散行列は、任意の二つの単語間の相関関係についてのすべての情報を含む。
調整部120は、共分散行列を、単語重みの調整に用いる。ここで、真であるが観測されない(潜在的な)単語重みが、共分散行列を有する多変数ガウスから生成されていると仮定する。しかしながら、真の重みは、ノイズにより乱されている。乱された単語重みは、入力された重みベクトルの単語重みとして実際に観測される。
ノイズとしては、加法性、及び、乗法性といった、2種類のノイズが考えられる。
はじめに、加法性ノイズを仮定した、単語重みの調整について説明する。以下、関数fは、i番目の単語e(i=1,...,n)の特徴ベクトルから重みf(e)への写像を示す。重みf(e)をf(i=1,...,n)とも記載する。ここで、関数fが、固定平均m(i=1,...,n)、共分散関数k(e,ej)のガウスプロセス(GP(Gaussian Process))に従って分布すると仮定する。
共分散関数には、例えば、数1のような、二乗指数共分散関数を用いることができる。
Figure 0006468364
ここで、lは、非特許文献3に記載されている、特徴的長さスケールであり、ri,jは数2式により定義される。
Figure 0006468364
このような共分散関数を選択することにより、二つの類似した単語が類似した単語重みを持つようにできる。これを確認するために、k(e,ej)が共分散E[(f(e)−m)(f(e)−m)]に等しいと考える。また、類似した単語については、対応する単語の特徴ベクトルが類似し、距離ri,jが小さいと仮定する。この場合、k(e,ej)は大きい。
さらに、真の観測されない(潜在的な)単語重みfが等方性ガウスノイズにより乱され、これにより観測される単語重みy(i=1,...,n)を生じると仮定する。この場合、生成モデルは数3式のように表される。
Figure 0006468364
ここで、ノイズεは、平均0、分散σ2の等方性ガウスノイズN(0,σ)からサンプリングされる。
単語重みyを有するテキストが与えられた場合、真の単語重みfは、図4式により表される最大事後確率推定(MAP(maximum-a-posteriori)推定)により推定できる。
Figure 0006468364
非特許文献3を参照すると、p(f|y,...,y)が、数5式で表されるモードを有するガウス分布であることは、容易に示される。
Figure 0006468364
ここで、m(mはn次元ベクトル)は、GPの平均である。mには、すべてのi(i=1,...,n)について、数6式で表される、テキスト内のすべての単語重みの経験的な平均重みが設定される。mは各iについて同じ値を示す。
Figure 0006468364
ここで、ベクトルy(yはn次元ベクトル)は、観測される単語重みy,...,yを含む。共分散行列K(Kは、要素Ki,j(i=1,...,n,j=1,...,n)を有するn×n次元の行列)は、数7式により定義される。
Figure 0006468364
ここで、ベクトルK(Kはn次元ベクトル、i=1,...,n)は、行列Kのi番目の列ベクトルを示す。
調整部120は、数5式により潜在的な単語重みを推定することにより、調整済みの単語重みを取得する。
数5式の平滑化ベクトルK(K+σI)−1は、すべてのテキストについて一定であるため、予め計算できる。分散σも、1.0や2.0のような所定値に設定できる。なお、分散σは、交差検証や訓練データに対しての周辺尤度の最大化により決定してもよい。
観測される単語重みyには、いくつかの選択肢がある。例えば、テキスト分類では、単語重みとして、tf−idfや、非特許文献5で定義されているConfWeightのような監視される重みを用いることができる。
ここで、図5、及び、図6に示したテキストを用いた具体例を説明する。
図7は、本発明の第2の実施形態における、tf−idf単語重みの例を示す図である。ここでは、説明のため、単語の特徴ベクトル(Word Embedding)が1次元であると仮定する。Word Embeddingの値(1次元の値)が横軸、tf−idf単語重みの値(観測された重み、及び、潜在的な(観測されない)真の重み)が縦軸に示されている。
図7の例では、テキストに出現する単語「tennis」、「school」、「baseball」、及び、「sport」について、観測された単語重みが高い。また、テキストに出現しない単語「soccer」、「racket」、「net」、及び、「court」について、観測された単語重みが0である。単語「tennis」の特徴ベクトルは、「court」、「net」、及び、「soccer」のような、関連する他の単語の特徴ベクトルに近い。単語「soccer」は、観測された単語重みが高い単語「tennis」及び「baseball」に近いため、図7に示すように、単語「soccer」の真の単語重みの推定値は、観測された単語重みより高くなる。
図8は、本発明の第2の実施形態における、tf−idf単語重みの他の例を示す図である。
図8の例では、テキストに出現する単語「tennis」、「racket」、及び、「net」について、観測された単語重みが高い。また、テキストに出現しない単語「school」、「sports」、「baseball」、「soccer」、及び、「court」について、観測された単語重みが0である。この例では、単語「baseball」について、観測された単語重みが0であるため、図8に示すように、単語「soccer」の真の単語重みの推定値は、観測された単語重みよりやや高いだけである。一方、単語「court」は、観測された単語重みが高い単語「tennis」、「net」、及び、「racket」に近い。したがって、単語「court」の真の単語重みの推定値は、観測された単語重みよりかなり高くなる。
次に、乗法性ノイズを仮定した、単語重みの調整について説明する。この場合、観測される単語重みyは、数8式により表される。
Figure 0006468364
ここで、ノイズ1θ(f)はfに比例する確率で1、そうでない場合0である。このモデルは、テキストの、典型的な疎のBOW表現を明示的に説明する。関数fが、数9式により表される、平均重みベクトルm、共分散行列Kの多変量正規分布に従って分布すると仮定する。
Figure 0006468364
のMAP推定を見つけるための分析的な解は存在しないが、例えば、ギブスサンプリング(Gibbs sampling)を用いることで、fの近似値を見つけることができる。
本発明の第2の実施形態においても、重みベクトルにおいて、テキストに関連する単語の重みを増やすことができる。その理由は、調整部120が、単語間の距離に基づき共分散行列を計算し、当該計算した共分散行列とノイズモデルに基づき各単語の潜在的な重みを推定することによって、重みベクトルの各単語の重みを調整するためである。
(第3の実施形態)
次に、本発明の第3の実施形態について説明する。本発明の第3の実施形態では、単語間の距離が単語の特徴ベクトルに基づき計算される。
図9は、本発明の第3の実施形態における、調整システム100の構成を示すブロック図である。図9を参照すると、本発明の第3の実施形態の調整システム100は、さらに、距離計算部140を含む。距離計算部140は、単語の特徴ベクトルに基づき、単語間の距離を計算し、距離記憶部110に保存する。
本発明の第3の実施形態では、距離ri,jは、数10式により定義される。
Figure 0006468364
ここで、Bは、n×n次元の特徴重み行列、αi,jは、クラス特異性に対して、i番目の単語とj番目の単語間の距離を補正するための係数である。
はじめに、特徴重み行列Bについて説明する。
最も簡単な設定では、特徴重み行列Bには、単に、単位行列が設定される。
上述のように、単語の特徴ベクトルとして、例えば、Word Embeddingやトピック分布を用いることができる。また、d1、及び、d2をそれぞれWord Embeddingの次元、及び、トピックの数とした場合に、Word Embeddingとトピック分布を、(d1+d2)次元の特徴ベクトルとして組み合わせてもよい。例えば、Word Embeddingの情報がトピック分布よりも重要であれば、適切な行列Bをさらに指定することが有益である。この場合、行列は、非特許文献3に記載されているように、交差検証や訓練データに対しての尤度の最大化により学習してもよい。
次に、補正係数αi,jについて説明する。
二つの単語のローカルコンテキストまたはトピックコンテキストがかなり類似していたとしても、二つの単語は異なるクラスに現れるかもしれない。この場合、それらの意味的な類似性は小さい。本発明の第3の実施形態では、一部のテキストが、既にクラスに割り当て済みであると仮定する。これは、特に、テキストについての最終的な表現(重みベクトル)が分類に使われるケースに相当する。例えば、最終的なタスクが「sport」に関するテキストか「politics」に関するテキストかの分類である場合、クラスに割り当て済みのテキストの訓練データセットを有していると仮定できる。
クラスが割り当てられて済みの二つの単語間の距離は、二つの単語と割り当てられたクラス間の相関を用いて補正される。簡単のため、二つのクラスA、Bだけがあると仮定する。この場合、クラスAとi番目の単語間の相関係数ρA,iが、−1から1の範囲で計算される。補正係数αi,jは、相関係数ρA,iと相関係数ρA,jを用いて、数11式により表される。
Figure 0006468364
相関係数ρA,iには、例えば、ピアソンの相関係数を用いることができる。テキストがクラスAに属するかどうかを示すランダム変数をA、i番目の単語がテキストに(1回以上)出現するかどうかを示すランダム変数をiで表す。また、ラベルが付与された訓練データの数をNで表す。さらに、テキストtがクラスAに属するかどうかを示す変数をA(Aは0または1)で表す。同様に、i番目の単語が(1回以上)テキストtに出現するかどうかを示す変数をi(iは0または1)で表す。この場合、相関係数ρA,iは、数12式により表される。
Figure 0006468364
距離計算部140は、単語間の距離を、数10式、数11式、及び、数12式を用いて計算する。
本発明の第3の実施形態によれば、単語間の距離に基づいて調整された重みベクトルを用いて、より正確な分類結果を得ることができる。その理由は、距離計算部140が、二つの単語が同じクラスに属するテキストに出現する傾向があれば、当該二つの単語間の距離が小さくなるように、距離を補正するためである。
(第4の実施形態)
次に、本発明の第4の実施形態について説明する。本発明の第4の実施形態では、第2の実施形態で述べたガウスプロセス(GP)モデルの近似を用いる。
第2の実施形態で示した行列(K+σI)の逆行列の計算は、n>10では困難になる。しかしながら、語彙の大きさは、実際には、10語程度、あるいはそれ以上と、さらに大きくなることがある。第4の実施形態では、語彙における固定したiと単語wについて、共分散k(e,e)が最大になるように、語彙から単語w,...,w(sはnに比べて十分小さい)が選択され、数13式により表される近似が用いられる。
Figure 0006468364
ここで、語彙における単語wは、i番目の単語と各単語間の距離(|e−e|)でソートされており、先頭のs個の単語が取得される。取得した単語w,...,w(i番目の単語についての、語彙のサブセット)をsub(i)で表し、単語sub(i)に制限されたベクトル、行列をysub(i)、msub(i)、Ki、sub(i)、Ksub(i)で表すとする。この場合、近似は、数14式で表される。
Figure 0006468364
数15式で定義されるb を用いることにより、近似は、数16式で表される。
Figure 0006468364
Figure 0006468364
なお、計算コストの高いb の計算は、訓練フェーズで事前に実行しておくことができる。さらに、行列(Ksub(i)+σI)の逆行列の計算の代わりに、コレスキー分解を用いることができる。この場合、行列(Ksub(i)+σI)を、Lをコレスキー因子としてKsub(i)+σI=LLに分解し、一次方程式LL =Ki、sub(i)を、後退代入により解くことができる。コレスキー分解の利用は、非特許文献3に示されている逆行列の計算に比べて、一般的に、より高速で、数値的により安定している。
調整部120は、重みベクトルの各単語の重みを、数16式に従って調整する。
また、訓練では、このような近似を用いることで、計算の複雑さが、O(n)からO(ns)へ低下し、空間的な複雑さが、O(n)からO(s)へ低下する。また、テスト、すなわち、与えられた新たなテキストy,...,yに対するf,...,fの計算では、計算の複雑さが、O(n)からO(s)へ低下する。
本発明の第4の実施形態によれば、単語の重み調整における計算上の複雑性を低減できる。その理由は、調整部120が、重みが調整された単語に近い単語のサブセットに制限された共分散行列を用いて、重みベクトルの各単語の重みを調整するためである。
以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。
本発明は、テキストの分類やクラスタリングを行うシステムに適用できる。特に、本発明により、二つのテキストが意味的に類似しているが、共通の単語がわずかな場合であっても、当該二つのテキストが類似していることを検出できる。これにより、分類対象のテキストがツィートのように小さい場合であっても、高い精度でテキストを分類できる。
100 調整システム
101 CPU
102 記憶デバイス
103 通信デバイス
104 入力デバイス
105 出力デバイス
110 距離記憶部
120 調整部
130 分類部
140 距離計算部

Claims (7)

  1. 複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段と、
    前記複数の用語の重みを含み、テキストを表す重みベクトルにおける、前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整する調整手段と、
    を備え
    前記調整手段は、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
    前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定される、
    情報処理システム。
  2. さらに、前記任意の二つの用語間の距離を、ローカルな単語ウィンドウに関するコンテキスト情報とトピックに関するコンテキスト情報の内の少なくとも一つを含む特徴ベクトルであって、当該二つの用語間の特徴ベクトル間の距離に基づいて計算する、距離計算手段を備える、
    請求項1に記載の情報処理システム。
  3. 前記距離計算手段は、同じクラスに属するテキストに前記二つの用語が現れる傾向がある場合には当該二つの用語間の距離がより小さくなるように、当該二つの用語間の距離を修正する、
    請求項2に記載の情報処理システム。
  4. 複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、
    前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整することを備え
    前記調整することは、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
    前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定する、
    情報処理方法。
  5. さらに、ローカルな単語ウィンドウに関するコンテキスト情報とトピックに関するコンテキスト情報の内の少なくとも一つを含む特徴ベクトルであって、任意の二つの用語間の特徴ベクトル間の距離に基づいて、当該二つの用語間の距離を計算する、
    請求項に記載の情報処理方法。
  6. 前記計算において、同じクラスに属するテキストに前記二つの用語が現れる傾向がある場合には当該二つの用語間の距離がより小さくなるように、当該二つの用語間の距離を修正する、
    請求項に記載の情報処理方法。
  7. コンピュータに、
    複数の用語の内の任意の二つの用語間の距離であって、同じクラスに属するテキストに当該二つの用語が現れる傾向がある場合に、当該二つの用語が意味的に類似しているほど小さくなるような距離を記憶する距離記憶手段から、前記複数の用語の重みを含み、テキストを表す重みベクトルにおける各用語と他の用語間の距離を取得し、
    前記重みベクトルにおける前記複数の用語の各々の重みを、当該重みベクトルにおける各用語と各他の用語間の距離、及び、各他の用語の重みに基づいて調整することを備え、
    前記調整することは、用語間の距離から前記複数の用語についての共分散行列を計算し、当該共分散行列を用いて、最大事後確率推定に基づいて、前記重みベクトルから前記複数の用語の各々の潜在的な重みを推定することにより、前記重みベクトルの各用語の重みを調整し、
    前記推定することは、前記複数の用語の各々の潜在的な重みを、前記複数の用語のサブセットであって、当該用語とサブセットの用語の各々との間の距離が、当該用語とサブセット以外の用語間の距離より小さくなるようなサブセットに限定した前記共分散行列を用いて、推定する、
    処理を実行させるプログラム。
JP2017552506A 2015-04-24 2015-04-24 情報処理装置、情報処理方法、及び、プログラム Active JP6468364B2 (ja)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2015/002242 WO2016170561A1 (en) 2015-04-24 2015-04-24 An information processing system and an information processing method for semantic enrichment of text

Publications (2)

Publication Number Publication Date
JP2018517963A JP2018517963A (ja) 2018-07-05
JP6468364B2 true JP6468364B2 (ja) 2019-02-13

Family

ID=53189110

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017552506A Active JP6468364B2 (ja) 2015-04-24 2015-04-24 情報処理装置、情報処理方法、及び、プログラム

Country Status (3)

Country Link
US (1) US10354010B2 (ja)
JP (1) JP6468364B2 (ja)
WO (1) WO2016170561A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108228648B (zh) * 2016-12-21 2022-03-15 伊姆西Ip控股有限责任公司 创建索引的方法和设备
CN110148428B (zh) * 2019-05-27 2021-04-02 哈尔滨工业大学 一种基于子空间表示学习的声学事件识别方法
CN110472041B (zh) * 2019-07-01 2021-08-03 浙江工业大学 一种面向客服在线质检的文本分类方法
CN111046169B (zh) * 2019-12-24 2024-03-26 东软集团股份有限公司 一种主题词的提取方法、装置、设备及存储介质
CN113254658B (zh) * 2021-07-07 2021-12-21 明品云(北京)数据科技有限公司 文本信息处理方法、系统、介质和设备

Family Cites Families (41)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04233599A (ja) 1990-12-28 1992-08-21 Canon Inc 音声認識方法及び装置
US7251637B1 (en) * 1993-09-20 2007-07-31 Fair Isaac Corporation Context vector generation and retrieval
US6161083A (en) * 1996-05-02 2000-12-12 Sony Corporation Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
US7133862B2 (en) * 2001-08-13 2006-11-07 Xerox Corporation System with user directed enrichment and import/export control
US7284191B2 (en) * 2001-08-13 2007-10-16 Xerox Corporation Meta-document management system with document identifiers
JP2003242176A (ja) * 2001-12-13 2003-08-29 Sony Corp 情報処理装置および方法、記録媒体、並びにプログラム
EP1493118A1 (en) * 2002-04-10 2005-01-05 Accenture Global Services GmbH Determination of attributes based on product descriptions
US6847966B1 (en) * 2002-04-24 2005-01-25 Engenium Corporation Method and system for optimally searching a document database using a representative semantic space
JP2004355371A (ja) * 2003-05-29 2004-12-16 Canon Inc 文書分類装置、その方法及び記憶媒体
US20050033568A1 (en) * 2003-08-08 2005-02-10 Hong Yu Methods and systems for extracting synonymous gene and protein terms from biological literature
CN1856788A (zh) * 2003-09-30 2006-11-01 株式会社Ipb 类似率算出装置和类似率算出程序
JP4428036B2 (ja) * 2003-12-02 2010-03-10 ソニー株式会社 情報処理装置および方法、プログラム、並びに、情報処理システムおよび方法
US20070073745A1 (en) * 2005-09-23 2007-03-29 Applied Linguistics, Llc Similarity metric for semantic profiling
US9600568B2 (en) * 2006-01-23 2017-03-21 Veritas Technologies Llc Methods and systems for automatic evaluation of electronic discovery review and productions
US7680341B2 (en) * 2006-05-05 2010-03-16 Xerox Corporation Generic visual classification with gradient components-based dimensionality enhancement
US7937397B2 (en) * 2006-08-22 2011-05-03 Fuji Xerox Co., Ltd. Apparatus and method for term context modeling for information retrieval
JP2010146171A (ja) 2008-12-17 2010-07-01 Nippon Hoso Kyokai <Nhk> 表現補完装置およびコンピュータプログラム
US9213687B2 (en) * 2009-03-23 2015-12-15 Lawrence Au Compassion, variety and cohesion for methods of text analytics, writing, search, user interfaces
US9009146B1 (en) * 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
US8166032B2 (en) * 2009-04-09 2012-04-24 MarketChorus, Inc. System and method for sentiment-based text classification and relevancy ranking
JP5440815B2 (ja) * 2009-06-26 2014-03-12 日本電気株式会社 情報分析装置、情報分析方法、及びプログラム
US8874432B2 (en) * 2010-04-28 2014-10-28 Nec Laboratories America, Inc. Systems and methods for semi-supervised relationship extraction
KR101811468B1 (ko) * 2010-06-03 2017-12-21 톰슨 라이센싱 톱-k 처리를 이용한 의미 보강
US10198431B2 (en) * 2010-09-28 2019-02-05 Siemens Corporation Information relation generation
US9087043B2 (en) * 2010-09-29 2015-07-21 Rhonda Enterprises, Llc Method, system, and computer readable medium for creating clusters of text in an electronic document
JP5117590B2 (ja) * 2011-03-23 2013-01-16 株式会社東芝 文書処理装置およびプログラム
US8488916B2 (en) * 2011-07-22 2013-07-16 David S Terman Knowledge acquisition nexus for facilitating concept capture and promoting time on task
US8650031B1 (en) * 2011-07-31 2014-02-11 Nuance Communications, Inc. Accuracy improvement of spoken queries transcription using co-occurrence information
US8868590B1 (en) * 2011-11-17 2014-10-21 Sri International Method and system utilizing a personalized user model to develop a search request
US20140067368A1 (en) * 2012-08-29 2014-03-06 Microsoft Corporation Determining synonym-antonym polarity in term vectors
JP6078380B2 (ja) 2013-03-04 2017-02-08 日本放送協会 文書解析装置、及びプログラム
US9424345B1 (en) * 2013-09-25 2016-08-23 Google Inc. Contextual content distribution
US10296823B2 (en) * 2013-11-15 2019-05-21 Intel Corporation Methods, systems and computer program products for using a distributed associative memory base to determine data correlations and convergence therein
US11017003B2 (en) * 2013-12-12 2021-05-25 Samuel S. Epstein Methods and apparatuses for content preparation and/or selection
US10157222B2 (en) * 2013-12-12 2018-12-18 Samuel S. Epstein Methods and apparatuses for content preparation and/or selection
WO2015162719A1 (ja) * 2014-04-23 2015-10-29 楽天株式会社 情報提供装置、情報提供方法、プログラム、及び記録媒体
US9378204B2 (en) * 2014-05-22 2016-06-28 International Business Machines Corporation Context based synonym filtering for natural language processing systems
WO2015188339A1 (en) * 2014-06-12 2015-12-17 Nokia Technologies Oy Method, apparatus, computer program product and system for reputation generation
GB201418018D0 (en) * 2014-10-10 2014-11-26 Workdigital Ltd A system for, and method of, searching data records
US9672206B2 (en) * 2015-06-01 2017-06-06 Information Extraction Systems, Inc. Apparatus, system and method for application-specific and customizable semantic similarity measurement

Also Published As

Publication number Publication date
JP2018517963A (ja) 2018-07-05
WO2016170561A1 (en) 2016-10-27
US10354010B2 (en) 2019-07-16
US20180137100A1 (en) 2018-05-17

Similar Documents

Publication Publication Date Title
JP6468364B2 (ja) 情報処理装置、情報処理方法、及び、プログラム
CN109902706B (zh) 推荐方法及装置
CN106776673B (zh) 多媒体文档概括
US10489688B2 (en) Personalized digital image aesthetics in a digital medium environment
Taddy One-step estimator paths for concave regularization
Almaksour et al. Improving premise structure in evolving takagi–sugeno neuro-fuzzy classifiers
WO2020114108A1 (zh) 聚类结果的解释方法和装置
CN111400615B (zh) 一种资源推荐方法、装置、设备及存储介质
JP6763426B2 (ja) 情報処理システム、情報処理方法、及び、プログラム
JP6924571B2 (ja) 情報処理装置、情報処理方法、および情報処理プログラム
JP6365032B2 (ja) データ分類方法、データ分類プログラム、及び、データ分類装置
JP5503633B2 (ja) トピックモデル学習方法、装置、及びプログラム
Liu et al. An experimental study on symbolic extreme learning machine
JPWO2016084326A1 (ja) 情報処理システム、情報処理方法、及び、プログラム
WO2020179378A1 (ja) 情報処理システム、情報処理方法および記録媒体
CN112000788A (zh) 一种数据处理方法、装置以及计算机可读存储介质
JP6099099B2 (ja) 収束判定装置、方法、及びプログラム
EP1837807A1 (en) Pattern recognition method
CN110543597B (zh) 一种评分确定方法、装置及电子设备
JP2016194912A (ja) 混合モデルの選択方法及び装置
Jiang et al. A Bayesian Markov-switching model for sparse dynamic network estimation
JP2019109662A (ja) 分類装置、データ構造、分類方法、およびプログラム
Endo et al. Analysis of relationship between renyi entropy and marginal bayes error and its application to weighted naive bayes classifiers
JP7268347B2 (ja) 識別装置、識別方法及びプログラム
JP5538354B2 (ja) トピックモデル学習方法、装置、及びプログラム

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20181009

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20181206

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20181218

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20181231

R150 Certificate of patent or registration of utility model

Ref document number: 6468364

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150