JP5474704B2 - 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 - Google Patents
意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 Download PDFInfo
- Publication number
- JP5474704B2 JP5474704B2 JP2010181544A JP2010181544A JP5474704B2 JP 5474704 B2 JP5474704 B2 JP 5474704B2 JP 2010181544 A JP2010181544 A JP 2010181544A JP 2010181544 A JP2010181544 A JP 2010181544A JP 5474704 B2 JP5474704 B2 JP 5474704B2
- Authority
- JP
- Japan
- Prior art keywords
- noun
- predicate
- pair
- sentence
- situation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
例文 :「修士になるため、大学院に進んだ」
語彙統語パターン:「*ため*」
因果関係 :<大学院,ニ,進む>、<修士,ニ,なる>
述語「ぶらつく」の係り受け名詞:「河原」「街」「公園」
述語「行く」の係り受け名詞 :「街」「公園」「砂浜」
2つの述語に共通して係る名詞 :「街」「公園」
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第4のステップと
してコンピュータを更に機能させることを特徴とする。
第1のステップについて、
文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
してコンピュータを更に機能させることも好ましい。
第17のステップについて、第12のステップにおける類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを更に機能させることも好ましい。
第3のステップについて、
複数の事態対から、第1の述語及び第2の述語からなる複数の述語対を抽出する第31のステップと、
文章集合蓄積部から、第1の述語に共起する第1の名詞集合と、第2の述語に共起する第2の名詞集合とを抽出する第32のステップと、
第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とを導出する第33のステップと、
第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する文章集合中の出現頻度と、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する文章集合中の出現頻度とを計数する第34のステップと、
第1の述語に基づく第1の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の出現頻度を表すベクトルとを結合したベクトルを導出する第35のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第36のステップと
してコンピュータを更に機能させることも好ましい。
多数の文章情報を蓄積した文章集合蓄積部を有し、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する第4のステップと
を有することを特徴とする。
第1のステップについて、
文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
を更に有することも好ましい。
多数の文章情報を蓄積した文章集合蓄積手段と、
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、文章集合蓄積部から名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
複数の事態対の事態に含まれる述語からなる複数の述語対を抽出し、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする。
名詞対クラスタ生成手段は、
文章集合蓄積手段から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
類似名詞対抽出手段によって抽出された名詞対について、文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する述語集合抽出手段と、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する特徴述語集合導出手段と、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を更に有することも好ましい。
<n,pp,p>
n :文章中の名詞
pp:助詞
p :名詞nに係る述語p
<吉野山,に,行く> 又は <桜,を,みる>
(a)<書,ヲ,たしなむ>と<書道,ヲ,する> : 含意関係
(b)<吉野山,ニ,行く>と<桜,ヲ,みる> : 時間的前後関係
(c)<河川,ガ,氾濫する>と<土嚢,ヲ,積む> : 災害−対策関係
例えば、前述の(a)(b)は、FellBaumらによる関係分類に属する関係である。これに対し、前述の(c)は、FellBaumらによる関係分類に属する関係ではない。本発明によれば、このような意味的関係も考慮して分類することができ、関係分類の定義のための膨大な人手によるコストを要しない。
文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出する。次に、文章集合蓄積部から名詞対に含まれる名詞毎に共起する述語集合を抽出する。そして、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する。
文章集合蓄積部から、名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する。
複数の事態対から、各事態対を構成する事態に含まれる述語からなる複数の述語対を抽出する。次に、文章集合蓄積部から述語対の述語毎に共起する名詞集合を抽出する。そして、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する。
最後に、名詞対における名詞対クラスタに対する寄与度と、述語対における述語対クラスタに対する寄与度とを表すベクトルに基づいて、事態対クラスタを生成する。
図2は、名詞対クラスタの生成のフローチャートである。
パターン:「<n1>の<n2>」
「<n1>で<n2>」
[文章] [名詞対]
「吉野山の桜をみたい」 ==> (吉野山,桜)
「新宿御苑のソメイヨシノはきれいだ」 ==> (新宿御苑,ソメイヨシノ)
「庭の桜が咲く」 ==> (庭,桜)
名詞対<吉野山,桜>
名詞「吉野山」 ==>述語集合{行く,植樹する,立ち寄る,咲く}
名詞「桜」 ==>述語集合{咲く,植樹する,守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>述語集合{手入れする,植樹する,掃除する}
名詞「桜」 ==>述語集合{咲く,植樹する,みる}
名詞対<吉野山,桜>
名詞「吉野山」 ==>特徴述語集合{行く,立ち寄る}
名詞「桜」 ==>特徴述語集合{守る,みる}
名詞対<新宿御苑,ソメイヨシノ>
名詞「新宿御苑」 ==>特徴述語集合{行く,整備する,立ち寄る}
名詞「ソメイヨシノ」==>特徴述語集合{咲く,植樹する,守る,みる}
名詞対<庭,桜>
名詞「庭」 ==>特徴述語集合{手入れする,掃除する}
名詞「桜」 ==>特徴述語集合{咲く,みる}
いずれの名詞対についても、第1の名詞と共起する第1の特徴述語集合には、共通して「行く」「立ち寄る」が含まれており、第2の名詞と共起する第2の特徴述語集合には、共通して「みる」「守る」が含まれている。従って、これらの名詞対は類似性が高い、と判断される。
両方の名詞対は、第2の名詞「桜」で共通する。しかしながら、名詞対<吉野山,桜>の第1の名詞「吉野山」と共起する第1の特徴述語集合には、「行く」「立ち寄る」のように場所に関する述語である。これに対し、名詞対<庭,桜>の第1の名詞「庭」と共起する第1の特徴述語集合には、「手入れする」「掃除する」などの造園に関する述語である。即ち、2つの名詞対で共通する述語が異なる。従って、これらの名詞対は類似性が低い、と判断される。
freq(吉野山,行く) =132回
freq(吉野山,立ち寄る)=76回
freq(桜,守る) =63回
freq(桜,みる) =142回
freq(n,p):名詞nと共起する述語pの出現頻度
freq_np=[freq(n,p1),freq(n,p2)…..]T
名詞「吉野山」に関するベクトル:freq_np1'=[132,76]T
名詞「桜」に関するベクトル :freq_np2'=[63,142]T
f(吉野山,桜)=[行く,立ち寄る,守る,みる]T
f(吉野山,桜)=[132, 76, 63, 142 ]T
次に、複数の事態対が生成される。「事態対」は、第1の事態と第2の事態とから構成され、「事態」は、<名詞n,助詞pp,名詞nに係る述語p>によって構成される。ここで、「事態」は、S12によって抽出された名詞対について、文章集合蓄積部から抽出される。
第1の名詞「吉野山」==>第1の事態<吉野山,ヲ,歩く>
<吉野山,ニ,行く>
・・・・・・・・
第2の名詞「桜」 ==>第2の事態<桜,ヲ,植える>
<桜,ヲ,みる>
・・・・・・・・
名詞対<吉野山,桜>==>事態対[<吉野山,ヲ,歩く>,<桜,ヲ,みる>]
[<吉野山,ニ,行く>,<桜,ヲ,みる>]
図3は、述語対クラスタの生成のフローチャートである。
述語対<歩く、みる>、<行く、みる>
述語対<歩く,みる>
述語「歩く」 ==>名詞集合{公園,道,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校,山,街}
述語「みる」 ==>名詞集合{花,山,森,街}
述語対<歩く,みる>
述語「歩く」 ==>特徴名詞集合{公園,道}
述語「みる」 ==>特徴名詞集合{花,森}
述語対<行く,みる>
述語「行く」 ==>名詞集合{会社,学校}
述語「みる」 ==>名詞集合{花,森}
freq(歩く,公園)=128回
freq(歩く,道) =60回
freq(みる,花) =48回
freq(みる,森) =122回
freq(p,n):述語pと共起する名詞nの出現頻度
freq_pn=[freq(p,n1),freq(p,n2)…..]T
述語「歩く」に関するベクトル:freq_pn1'=[128,60]T
述語「みる」に関するベクトル:freq_pn2'=[48,122]T
f(歩く,みる)=[公園,道,花,森 ]T
f(歩く,みる)=[128, 60,48,122]T
図4は、事態対クラスタの生成を表す説明図である。
事態対[<n1,pp1,p1>,<n2,pp2,p2>]
名詞対(n1,n2)
述語対(p1,p2)
助詞 pp1、pp2
第1の事態対[<吉野山,ニ,行く>,<桜,ヲ,みる>]
第2の事態対[<新宿御苑,ニ,立ち寄る>,<ソメイヨシノ,ヲ,撮影する>]
これら事態対から、以下の名詞対及び述語対が抽出される。
名詞対:<吉野山,桜>、<新宿御苑,ソメイヨシノ>
述語対:<行く,立ち寄る>、<みる,撮影する>
第1の事態対:ベクトル[0.8, 0,0,0,0.9,0,0,0]T
第2の事態対:ベクトル[0.85,0,0,0,0.7,0,0,0]T
属していないクラスタの所属確率は、0となる。cos類似度(内積)を用いた場合、このベクトル間類似度は0.99となり、極めて高いことが認められる。尚、この2つの事態対はどちらも時間的前後関係を表す。尚、助詞ppを、クラスタリングの入力ベクトルの項に追加することも好ましい。
10 文章集合蓄積部
11 名詞対クラスタ生成部
111 名詞対抽出部
112 類似名詞対抽出部
113 述語集合抽出部
114 特徴述語集合導出部
115 述語出現頻度計数部
116 述語ベクトル生成部
117 名詞対クラスタリング部
12 事態対生成部
13 述語対クラスタ生成部
131 述語対抽出部
132 名詞集合抽出部
133 特徴名詞集合導出部
134 名詞出現頻度計数部
135 名詞ベクトル生成部
136 述語対クラスタリング部
14 事実対クラスタ生成部
Claims (8)
- 名詞+助詞+述語からなる「事態」の対を意味的な二項関係に分類するために、装置に搭載されたコンピュータを実行させる二項関係分類プログラムにおいて、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第4のステップと
してコンピュータを更に機能させることを特徴とする二項関係分類プログラム。 - 第1のステップについて、
前記文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
してコンピュータを機能させることを特徴とする請求項1に記載の二項関係分類プログラム。 - 第17のステップについて、第12のステップにおける前記類似度として相互情報量を用いて所定閾値以上となる対のみをクラスタリングするようにコンピュータを機能させることを特徴とする請求項2に記載の二項関係分類プログラム。
- 第3のステップについて、
複数の前記事態対から、第1の述語及び第2の述語からなる複数の述語対を抽出する第31のステップと、
前記文章集合蓄積部から、第1の述語に共起する第1の名詞集合と、第2の述語に共起する第2の名詞集合とを抽出する第32のステップと、
第1の名詞集合に出現し且つ第2の名詞集合に出現しない名詞からなる第1の特徴名詞集合と、第2の名詞集合に出現し且つ第1の名詞集合に出現しない名詞からなる第2の特徴名詞集合とを導出する第33のステップと、
第1の特徴名詞集合に属する名詞毎に、第1の述語と共起する前記文章集合中の出現頻度と、第2の特徴名詞集合に属する名詞毎に、第2の述語と共起する前記文章集合中の出現頻度とを計数する第34のステップと、
第1の述語に基づく第1の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルと、第2の述語に基づく第2の特徴名詞集合に属する名詞毎の前記出現頻度を表すベクトルとを結合したベクトルを導出する第35のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、述語対クラスタを生成する第36のステップと
してコンピュータを機能させることを特徴とする請求項1から3のいずれか1項に記載の二項関係分類プログラム。 - 名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する装置における二項関係分類方法において、
多数の文章情報を蓄積した文章集合蓄積部を有し、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する第1のステップと、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する第2のステップと、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する第3のステップと、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する第4のステップと
を有することを特徴とする二項関係分類方法。 - 第1のステップについて、
前記文章集合蓄積部から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する第11のステップと、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する第12のステップと、
第12のステップによって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する第13のステップと、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する第14のステップと、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する第15のステップと、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する第16のステップと、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する第17のステップと
を有することを特徴とする請求項5に記載の二項関係分類方法。 - 名詞+助詞+述語からなる「事態」を意味的な二項関係に分類する二項関係分類装置において、
多数の文章情報を蓄積した文章集合蓄積手段と、
前記文章集合蓄積部から所定閾値以上で共起しやすい名詞対を抽出し、前記文章集合蓄積部から前記名詞対の名詞毎に共起する述語集合を抽出し、名詞毎に当該述語集合の出現頻度を表すベクトルに基づいて名詞対クラスタを生成する名詞対クラスタ生成手段と、
前記文章集合蓄積部から、前記名詞対における各名詞を含む事態を抽出し、複数の事態対を生成する事態対生成手段と、
前記複数の事態対から、各事態対の事態に含まれる述語からなる複数の述語対を抽出し、前記文章集合蓄積部から前記述語対の述語毎に共起する名詞集合を抽出し、述語毎の当該名詞集合の出現頻度を表すベクトルに基づいて述語対クラスタを生成する述語対クラスタ生成手段と、
前記名詞対における前記名詞対クラスタに対する寄与度と、前記述語対における前記述語対クラスタに対する寄与度とを表すベクトルに基づいて、前記事態対クラスタを生成する事態対クラスタリング手段と
を有することを特徴とする二項関係分類装置。 - 前記名詞対クラスタ生成手段は、
前記文章集合蓄積手段から、第1の名詞及び第2の名詞からなる複数の名詞対を抽出する名詞対抽出手段と、
前記名詞対の中で共起しやすさを表す類似度が、所定閾値以上となる名詞対を抽出する類似名詞対抽出手段と、
前記類似名詞対抽出手段によって抽出された前記名詞対について、前記文章集合蓄積部から、第1の名詞に共起する第1の述語集合と、第2の名詞に共起する第2の述語集合とを抽出する述語集合抽出手段と、
第1の述語集合に出現し且つ第2の述語集合に出現しない述語からなる第1の特徴述語集合と、第2の述語集合に出現し且つ第1の述語集合に出現しない述語からなる第2の特徴述語集合とを導出する特徴述語集合導出手段と、
第1の特徴述語集合に属する述語毎に、第1の名詞と共起する前記文章集合中の出現頻度と、第2の特徴述語集合に属する述語毎に、第2の名詞と共起する前記文章集合中の出現頻度とを計数する述語出現頻度計数手段と、
第1の名詞に基づく第1の特徴述語集合に属する述語毎の出現頻度を表す第1のベクトルと、第2の名詞に基づく第2の特徴述語集合に属する述語毎の出現頻度を表す第2のベクトルとを結合したベクトルを導出する名詞対類似度算出手段と、
ベクトル間類似度に基づく分割最適化クラスタリングによって、名詞対クラスタを生成する名詞対クラスタリング手段と
を有することを特徴とする請求項7に記載の二項関係分類装置。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010181544A JP5474704B2 (ja) | 2010-08-16 | 2010-08-16 | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010181544A JP5474704B2 (ja) | 2010-08-16 | 2010-08-16 | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012043048A JP2012043048A (ja) | 2012-03-01 |
JP5474704B2 true JP5474704B2 (ja) | 2014-04-16 |
Family
ID=45899313
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010181544A Active JP5474704B2 (ja) | 2010-08-16 | 2010-08-16 | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5474704B2 (ja) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5504097B2 (ja) * | 2010-08-20 | 2014-05-28 | Kddi株式会社 | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 |
JP6009317B2 (ja) * | 2012-10-31 | 2016-10-19 | Kddi株式会社 | スキル評価方法および装置 |
CN104008092B (zh) * | 2014-06-10 | 2017-01-18 | 复旦大学 | 一种基于语义空间映射的语义关系表征、聚类及识别的方法和系统 |
JP2017174009A (ja) * | 2016-03-22 | 2017-09-28 | 日本電気株式会社 | 事態間知識抽出装置、事態間知識抽出方法、及びプログラム |
US11580301B2 (en) * | 2019-01-08 | 2023-02-14 | Genpact Luxembourg S.à r.l. II | Method and system for hybrid entity recognition |
CN110837642B (zh) * | 2019-11-14 | 2023-10-13 | 腾讯科技(深圳)有限公司 | 恶意程序分类方法、装置、设备及存储介质 |
CN111898366B (zh) * | 2020-07-29 | 2022-08-09 | 平安科技(深圳)有限公司 | 文献主题词聚合方法、装置、计算机设备及可读存储介质 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001188678A (ja) * | 2000-01-05 | 2001-07-10 | Mitsubishi Electric Corp | 言語事例推論装置,言語事例推論方法及び言語事例推論プログラムが記述された記憶媒体 |
JP2009048455A (ja) * | 2007-08-21 | 2009-03-05 | Nippon Hoso Kyokai <Nhk> | 節間関係推定装置およびコンピュータプログラム |
JP2009059323A (ja) * | 2007-09-04 | 2009-03-19 | Omron Corp | 知識生成システム |
-
2010
- 2010-08-16 JP JP2010181544A patent/JP5474704B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2012043048A (ja) | 2012-03-01 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5474704B2 (ja) | 意味的に類似している事態対を二項関係に分類する二項関係分類プログラム、方法及び装置 | |
US11036768B2 (en) | Scalable capturing, modeling and reasoning over complex types of data for high level analysis applications | |
US20180293978A1 (en) | Performing semantic analyses of user-generated textual and voice content | |
Ardjani et al. | Ontology-alignment techniques: survey and analysis | |
US20140250047A1 (en) | Authoring system for bayesian networks automatically extracted from text | |
CN106919689A (zh) | 基于术语释义知识单元的专业领域知识图谱动态构建方法 | |
CN106095762A (zh) | 一种基于本体模型库的新闻推荐方法及装置 | |
JP5504097B2 (ja) | 意味的に類似している語対を二項関係に分類する二項関係分類プログラム、方法及び装置 | |
CN103207860A (zh) | 舆情事件的实体关系抽取方法和装置 | |
Cordobés et al. | Graph-based techniques for topic classification of tweets in Spanish | |
CN112328794B (zh) | 台风事件信息聚合方法 | |
Li et al. | Learning with click graph for query intent classification | |
CN103279458A (zh) | 一种领域本体的构建及实例化方法 | |
Ouyang et al. | Sentistory: multi-grained sentiment analysis and event summarization with crowdsourced social media data | |
CN112925901A (zh) | 一种辅助在线问卷评估的评估资源推荐方法及其应用 | |
Petasis et al. | BOEMIE: Reasoning-based Information Extraction. | |
Almars et al. | Structured sentiment analysis | |
Zhu et al. | Get into the spirit of a location by mining user-generated travelogues | |
Kastrati et al. | An improved concept vector space model for ontology based classification | |
Kostakos | Strings and things: A semantic search engine for news quotes using named entity recognition | |
Mongiovì et al. | Merging open knowledge extracted from text with MERGILO | |
Jiang et al. | A semantic-based approach to service clustering from service documents | |
Lloréns et al. | Automatic generation of domain representations using thesaurus structures | |
CN110347824A (zh) | 一种基于词汇相似性的lda主题模型最优主题数确定方法 | |
Narayanasamy et al. | Crisis and disaster situations on social media streams: An ontology-based knowledge harvesting approach |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20130304 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20131205 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20131217 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20131220 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20140116 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20140205 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5474704 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |