JP5924666B2 - 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム - Google Patents
述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム Download PDFInfo
- Publication number
- JP5924666B2 JP5924666B2 JP2012039966A JP2012039966A JP5924666B2 JP 5924666 B2 JP5924666 B2 JP 5924666B2 JP 2012039966 A JP2012039966 A JP 2012039966A JP 2012039966 A JP2012039966 A JP 2012039966A JP 5924666 B2 JP5924666 B2 JP 5924666B2
- Authority
- JP
- Japan
- Prior art keywords
- template
- pair
- predicate
- noun
- phrase
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/247—Thesauruses; Synonyms
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- Document Processing Apparatus (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Description
人手で用意した大量の因果関係事例から機械学習によって新たな因果関係を取得する技術として、非特許文献1に記載された技術がある。日本語での例として、因果関係を明示的に示す「ため」「ので」といった接続詞のテキスト中での出現を手がかりにフレーズ間の関係を自動認識するものが存在する(非特許文献2)。
WordNet等の人手で構築された辞書を利用するものが存在する(非特許文献3)。
名詞と動詞との組合せからなる単位について、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなものか否かに基づいて動詞を分類したり、そうした性質を持つ動詞を自動的に獲得したりする研究が存在する(例えば非特許文献4及び非特許文献5)。
単語間の特定の意味的関係、例えば、因果関係に関して、仮説を生成する技術が存在する(非特許文献6)。例えば、「コレステロール」と「動脈硬化」の間には因果関係があり、「動脈硬化」と「脳梗塞」の間に因果関係があることをデータベースに保持していたとすると、それらの因果関係を組合せて、新たな仮説「コレステロール」は「脳梗塞」の原因となることを推論する。
従来、動詞等の語又は「AがBを引き起こす」のようなパターンの間の同義性、含意の認識において、その語の周辺に出現する他の語又はパターン中においてA、Bといった変数の占める位置に出現する語の確率分布を求め、それらの間の統計的類似度(これを「分布類似度」と呼ぶ)を用いる技術が存在する(非特許文献7)。例えば、「AがBを引き起こす」というパターンと「AがBの原因となる」というパターンとはほぼ同義と認められるが、このことを、A、Bの位置にくる一連の名詞、例えば「ダイオキシン」「ガン」のようなものの出現確率を求め、それらの出現確率の間の類似度によってそうした同義を認識する技術である。
以下、(A)フレーズ間の因果関係の自動認識手法、(B)フレーズ間の矛盾関係の自動認識手法、(C)述語テンプレート(助詞と動詞の対、例:<を、食べる>)の自動分類方法、(D)言語による自動仮説生成手法、及び(E)フレーズ間の同義、含意の自動認識手法、の5点に関して従来技術の課題を整理する。
フレーズ間の論理的関係の1つとして、因果関係がある。先行技術は、因果関係を明示的に示す「ため」「ので」といった接続詞、又は、人手で構築した辞書をその情報源として因果関係を認識する。しかし、「ため」のような接続詞は通常テキスト中で出現頻度がそれほど多くないこと、及び、人手で作成された辞書はカバーする語が少なく、獲得できる因果関係が多くないという問題がある。したがって、適用範囲を広くすることが望ましい。
フレーズ間の論理的関係の他の例として、フレーズ間の矛盾関係がある。ここでいう矛盾関係とは、両者の意味するところが反対であることをいう。この点に関する先行技術は、人手で構築された辞書に依存している。そうした辞書に記載されている語は多くなく、広範な表現に対応できないという問題がある。
先行技術では、動詞が例えば名詞の指す対象の持つ機能、効果等を発揮させる、増大させる方向の出来事を記述するようなもののみに着目している。しかし、単に動詞のこのような性質に着目するのみでは、矛盾・因果関係の認識が十分に行なえないという問題がある。
先行技術に開示された技術では、単語間の因果関係を抽出することは可能だが、より広い単位で因果関係を抽出したり、因果関係に関する仮説を生成したりすることができないという問題がある。
先行技術では、単語、フレーズ、パターンの周辺に出現する他の単語の確率分布を求める。さらにそれらの確率分布の間の類似度を計算する。こうして得られた情報によって、単語、フレーズ、及びパターンの間の同義又は含意関係を認識している。しかし、これらの技術には、「反義」の表現も同義と認識してしまう可能性が高いという欠点がある。例えば、パターン「AがBを引き起こす」とパターン「AがBを防ぐ」というパターンとを比較するとわかりやすい。両者において、「引き起こす」と「防ぐ」とは全く反対の意味を持つ。ところが、周辺に出現する他の単語の確率分布の類似度を求めると、これらが高い類似度を示すためである。例えば、「食事が成人病を引き起こす」「食事が病気を防ぐ」のように曖昧な語が、両者のパターンに頻出することが多いということに起因する。こうしたパターンが頻出するために、「引き起こす」、及び「防ぐ」という語を含むパターンに出現する名詞の確率分布が類似してしまう。したがって、同義、含意についてもより精度高く認識できるようにする必要がある。
《テンプレート》
既に述べたとおり、1つの名詞と、1つの動詞、形容詞又は形容動詞とを助詞を介して結び付けたものを「述語テンプレート」と呼ぶ。本実施の形態では、述語テンプレートは、活性、不活性、中立のいずれかに分類される。
以下では、述語テンプレートの分類ラベルについて説明する。次に、その分類が持つ言語学的性質を説明する。さらに、分類の自動獲得手法について述べる。最後に、分類された述語テンプレートのアプリケーションについて述べる。
本実施の形態では、全体のシステムの入力となるテキストに現れる述語テンプレートを以下のテーブル1に示す3種に分類する。
否定の助動詞「ない」等が述語に続く場合には、述語と否定の助動詞を併せたものを1つの述語と考え、その活性値として、元の述語の活性値の正負を逆転させたものを用いる。以下のテーブル3に例を挙げる。
(2)述語テンプレートへの極性の割当
述語テンプレートへの極性の割当は自動的に計算される。まず、極性割当の手がかりとして以下のような言語学的性質、制約を考える。まず、名詞の対を考え、対を成す名詞の間の因果関係という概念を導入する。
なお、同義/含意の関係を持つ述語テンプレートの組は同じ極性を持つ。例えば「(ワクチン)を処方する」と「(ワクチン)を注射する」とは両方とも極性は正であり、「(地震)が発生する」と「(地震)が起きる」についても極性は両方とも正である。ただし、活性値が同一であるとは限らない。
活性値の積が正で、活性値の絶対値が大きい述語テンプレートの対が正の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合には因果関係を表している可能性が高くなる。活性値の積が負で、活性値の絶対値が大きい述語テンプレートの対が負の因果関係を持つ名詞と共起し、順接の接続詞で結ばれた場合にも因果関係を表している可能性が高い。この性質を利用して、因果関係を表す、2つの述語テンプレート及び正負の因果関係を持つ名詞対を含む表現をテキスト中で自動的に認識し、取得できる。
接続詞「〜て」は、因果関係を表すとは限らない。「〜て」が因果関係以外を表す表現は無数に存在する。例えば、「風呂に入って、食事をする」の場合、風呂と食事との間には、因果関係は通常認められない。本実施の形態により、このような、因果関係ではないフレーズペアをうまく除外し、因果関係のみを精度高く取得できる。
極性が反対の述語テンプレートは、仮に両者が同種の名詞に付随して出現する場合、互いに矛盾している可能性が高い。この性質を利用して、矛盾するフレーズ対を自動的に取得できる。具体的には、共通の名詞と共に出現する確率が高く、極性が反対の述語テンプレートの対に、共通の名詞を埋め込んだフレーズ対を収集する。これらフレーズ対は、互いに矛盾するフレーズ対として自動的に取得できる。以下に、矛盾する表現の例を挙げる。
上記(A)フレーズ間の因果関係の自動認識と(B)情報の矛盾の自動認識の技術を併せ用いる事で、元となるテキストに陽に記載されていない因果関係を自動取得する事が可能となる。その手法の概略は以下のとおりである。
従来の同義、含意関係の自動獲得技術では、注目している表現の周辺に出現する語の出現確率の分布の類似により、同義、含意を認識している。しかし既に述べたように、往々にして、ある単語Aに対する反義の単語Bが、単語Aと同義又は含意という関係を持つと誤認識されるケースがあった。これは、反義語の出現するコンテキストが類似することが多いことに起因する。これに対して本実施の形態によれば、例えば、「を引き起こす」の活性値が正、「を防ぐ」の活性値が負であることを自動的に計算できる。これらの情報を用いると、従来技術を用いることで抽出された同義表現の候補の中で、述語テンプレートの極性が異なっているか否かにより同義か否かを見分けることができる。この結果、本実施の形態の技術を用いて、単語の同義及び含意の自動獲得の精度が向上する。
上記した(A)及び(C)の技術によって多数の因果関係を取得できる。それら多数の因果関係をデータベース化すると、それら因果関係の表現中に頻出する述語テンプレートの対が獲得できる。例えば、「が起きた」と「に襲われた」という述語テンプレートの対が、データベース中の因果関係に多数出現するものとする。そうした述語テンプレートは、テキスト中で文をまたがって(別の文の中で)出現した場合でも、互いの間の文数、単語数又は文字数等、「距離」が近い場合には因果関係を表す可能性が高い。例えば、「昨日、地震が起きた。津波に襲われたとの報告が寄せられている。」といったように、「地震が起きた」という表現と「津波に襲われた」という表現とが2文に分かれて出現した場合を考える。この場合でも、「地震が起きた」と「津波に襲われた」との2つのフレーズで記述される出来事の間には因果関係がある。また、そこに出現している名詞の対、すなわち「地震」と「津波」の間にも因果関係がある。こうした性質を利用し、複数文にまたがって記載されている因果関係を、フレーズ間及び単語間の双方について、自動的に取得できる。
[構成]
図1を参照して、この発明の第1の実施の形態に係る矛盾表現収集システム30は、前述した述語テンプレートのうち、テンプレートネットワーク構築の際の核となるテンプレート(これを「シードテンプレート」と呼ぶ)を記憶するためのシードテンプレート記憶装置32と、述語テンプレートの間を連結する、順接及び逆説の接続詞を記憶する接続詞記憶部34と、シードテンプレート記憶装置32、接続詞記憶部34、及びインターネット40上のコーパスから、接続詞記憶部34に記憶された接続詞により結び付けられた2つのフレーズからなるフレーズ対を大量に収集し、それらの中から互いに矛盾した表現(相反する表現)を獲得するための矛盾表現収集装置36と、矛盾表現収集装置36により収集された矛盾表現を記憶するための矛盾表現記憶装置38とを含む。
(2)2つの述語テンプレートの極性が同じで、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの関係は負
(3)2つの述語テンプレートの極性が反対で、これらが順接の接続詞で接続されていると、これらと共起している名詞ペアの関係は負
(4)2つの述語テンプレートの極性が反対で、これらが逆接の接続詞で接続されていると、これらと共起している名詞ペアの関係は正
テンプレートDB構築装置60はさらに、名詞ペア記憶部96に接続され、名詞ペア極性判定部98により関係タグが付された名詞ペアの各々について、それらと共起するテンプレートペアをインターネット40から収集するためのテンプレートペア収集部100と、テンプレートペア収集部100が収集したテンプレートペアを、それらと共起した名詞ペアと関係付けて記憶するためのテンプレートペア記憶部102と、テンプレートペア記憶部102に記憶されたテンプレートペアの各々について、そのテンプレートペアを構成するテンプレートの活性/不活性が同じか否か(マッチするか否か)を、そのテンプレートペアと共起する名詞ペアの関係(正/負)と、テンプレートを連結している接続詞が順接か逆接かに基づいて判定し、各テンプレートペアにその結果をタグとして付与するためのテンプレート活性マッチ判定部104とを含む。
(2)関係が正である名詞ペアと共起し、逆接の接続詞により接続されるテンプレートペアの活性は反対
(3)関係が負である名詞ペアと共起し、順接の接続詞により接続されるテンプレートペアの活性は反対
(4)関係が負である名詞ペアと共起し、逆接の接続子により接続されるテンプレートペアの活性は同じ
テンプレートDB構築装置60はさらに、テンプレートペア記憶部102に記憶されたテンプレートペアとそのマッチ判定結果とに基づいて、テンプレート間にネットワークを構築するためのテンプレートネットワーク構築部106と、テンプレートネットワーク構築部106が、ネットワークの構築時にテンプレート間のリンクを追加するために使用する同義・含意関係辞書108とを含む。このネットワークを本明細書では「テンプレートネットワーク」と呼ぶ。
この第1の実施の形態に係る矛盾表現収集システム30は、以下のように動作する。図1を参照して、シードテンプレート記憶装置32には予め少数のシードテンプレートが格納される。各シードテンプレートが活性か否かについても予め判断されており、各テンプレートにそのタグが付されている。一方、接続詞記憶部34には、日本語の順接接続詞及び逆接接続詞が格納されている。これらについても、予め順接か逆接かを示す情報を付与しておく。
上記した第1の実施の形態の矛盾表現収集システム30のうち、テンプレートDB構築装置60によってテンプレートDB62を得ることができる。このテンプレートDB62は、第1の実施の形態のような矛盾表現の獲得だけではなく、様々な処理に使用できる。第2の実施の形態は、テンプレートDB62を因果関係の取得に使用する例である。この第2の実施の形態は、図1の矛盾表現獲得部64に代えて、インターネット40から因果関係表現を獲得するための処理部を採用することで実現できる。そうした処理部は、コンピュータプログラムで実現できる。
第2の実施の形態では、インターネット40上に存在する記載について、因果関係を記載していると思われる因果関係を抽出している。しかし、世の中には、因果関係と見なせるものは無数に存在している。第2の実施の形態の方法では、それらの中で、実際にインターネット40上に文として記載されたもの、すなわち人間の表現活動により根拠が与えられているとみなすことのできるもののみが抽出されている。しかも、1つの因果関係であっても、多種多様な言語で表現できる。例えば、日本語に限定して、ある因果関係「米国産牛肉を入手する→牛丼を作る」の周辺に存在する因果関係は、以下に例を示すように多様な形で表現できる。
因果関係仮説の生成手法としては、第3の実施の形態に係るもの以外にも種々考えられる。この第4の実施の形態に係る手法は、インターネット40から直接的に獲得した因果関係ペア(因果関係にあるフレーズのペア)、又は、第3の実施の形態に係る手法により獲得した因果関係仮説(因果関係ペアの一種)と、第1の実施の形態で求めた矛盾表現(互いに矛盾するフレーズからなるペア)とから、因果関係仮説を生成する、というものである。具体的には、以下のようにする。なお、以下の処理の前提として、フレーズ「牛肉を輸入する」に対してフレーズ「牛肉が輸入禁止になる」という矛盾表現が予め得られており、フレーズ「牛丼を食べる」に対して「牛丼が食べられない」という矛盾表現が予め得られているものとする。
《同義・含意表現の精度の向上》
上記実施の形態は、いずれも最終的には何らかの形のフレーズペアを得る。しかし、本発明により得られるテンプレートペアは、そのような実施の形態で利用可能なだけではない。他にも種々の利用を考えることができる。
従来の因果関係名詞ペアを獲得する手法の大部分は、あるパターンで一文内に共起している名詞のペアを抽出する、というものである。しかし、そうした手法では、一文中に記述されている因果関係ペアしか獲得できない。一方、現実には、一文中に共起している表現以外でも、因果関係の表現があり得る。特に、テキスト中で互いに近い位置に存在している表現のペアの中に、因果関係を表しているものも多い。例えば、「東北で地震が起きた。その後、大勢の人が津波に襲われた」というような表現である。
以上のように本発明の実施の形態によれば、以下のような効果が得られる。
上記実施の形態に係るシステムは、コンピュータハードウェアと、そのコンピュータハードウェア上で実行されるコンピュータプログラムとにより実現できる。図15はこのコンピュータシステム930の外観を示し、図16はコンピュータシステム930の内部構成を示す。
32 シードテンプレート記憶装置
34 接続詞記憶部
36 矛盾表現収集装置
38 矛盾表現記憶装置
40 インターネット
60 テンプレートDB構築装置
62 テンプレートDB
64 矛盾表現獲得部
90 テンプレートペア生成部
92 テンプレートペア記憶部
94 名詞ペア収集部
96 名詞ペア記憶部
98 名詞ペア極性判定部
100 テンプレートペア収集部
102 テンプレートペア記憶部
104 テンプレート活性マッチ判定部
106 テンプレートネットワーク構築部
108 同義・含意関係辞書
110 テンプレートネットワーク記憶部
112 テンプレート活性値算出部
114 高活性度テンプレート抽出部
116 終了判定部
118 シードテンプレート更新部
140 テンプレートネットワーク
630,670 推論システム
632,672 因果関係DB
634 因果関係
674 因果関係群
Claims (9)
- 述語テンプレートを、所定の文の集合から収集するための述語テンプレート収集装置であって、
述語テンプレートは、名詞と結びついてフレーズを構成するものであり、
かつ述語テンプレートには、活性、不活性、及び中立という分類に従って活性の向き及びその大きさを表す活性値を付与することが可能であり、
活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させる方向の出来事を記述することを示し、
不活性とは、当該述語テンプレートに結び付けられた名詞の指す対象の機能又は効果を発揮させない方向の出来事を記述することを示し、
中立とは、活性でも不活性でもない述語テンプレートであることを示し、
述語テンプレートに関する活性及び不活性の区別を極性と呼び、
前記述語テンプレート収集装置は、
順接又は逆接に分類された接続詞を記憶する接続詞記憶部と、
テンプレートネットワークを構築するための起点となるシードテンプレートを記憶するためのシードテンプレート記憶部とを含み、
前記シードテンプレートの各々には、極性と活性値とが付され、
前記述語テンプレート収集装置はさらに、ある関係を充足する名詞ペアを所定のコーパスから収集し、各名詞ペアを構成する名詞同士の関係を正負のいずれかに分類するための名詞ペア収集手段を含み、
名詞ペアを構成する名詞同士の関係の正負は、当該名詞ペアの一方の示す対象が、他方の示す対象の出現を促進するときには正、抑制するときには負として定義され、
前記述語テンプレート収集装置はさらに、
前記名詞ペア収集手段により収集された名詞ペアとそれぞれ共起する述語テンプレートペアを所定のコーパスから収集し、各述語テンプレートペアの活性/不活性が同一か否かを判定するための述語テンプレートペア収集手段と、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアと、各述語テンプレートペアについての活性/不活性が同一か否かの判定結果とを用いて述語テンプレート間を関係付けることにより、各述語テンプレートをノードとし、述語テンプレートペアを構成する述語テンプレートの間の関係をリンクとするテンプレートネットワークを構築するための構築手段と、
前記テンプレートネットワーク内のシードテンプレートに対応するノードに予め付与されている前記活性値をもとにし、前記テンプレートネットワーク内のノード間の関係を用い、各ノードに付与すべき活性値を算出し、各ノードに対応する述語テンプレートに、算出された活性値を付与して出力するための活性値算出手段とを含み、
前記名詞ペア収集手段は、
前記シードテンプレート記憶部に記憶された任意の2つのシードテンプレートの間に前記接続詞記憶部に記憶された接続詞を挿入した形式の述語テンプレートペアと共起する名詞ペアを前記コーパスから収集するための手段と、
前記収集するための手段により収集された名詞ペアの組合せの各々について、各名詞ペアと共起する述語テンプレートペアの極性が一致しているか否かと、当該名詞ペアおよび述語テンプレートにより構成されるフレーズ対を結び付けている接続詞が順接か逆説かに基づいて、当該名詞ペアの組合せを構成する名詞の関係の正負を決定するための正負決定手段とを含む、述語テンプレート収集装置。 - 前記収集するための手段は、前記シードテンプレート記憶部に記憶された任意の2つのシードテンプレートの間に前記接続詞記憶部に記憶された接続詞を挿入した形式の複数の述語テンプレートペアについて、各述語テンプレートペアと前記コーパス内で所定の頻度以上の頻度で共起する名詞ペアを前記コーパスから収集するための手段を含む、請求項1に記載の述語テンプレート収集装置。
- 前記名詞ペア収集手段はさらに、前記収集するための手段により収集された名詞ペアの各々について前記決定するための手段により決定された、当該名詞ペアを構成する名詞の関係の正負を、前記名詞ペアの種類毎に集計し、多数決により、名詞ペアの種類ごとに当該名詞ペアを構成する名詞の関係の正負を決定するための手段を含む、請求項2に記載の述語テンプレート収集装置。
- さらに、前記活性値算出手段による述語テンプレートの出力が完了したことに応答して、述語テンプレートの活性値を算出する処理の終了条件が成立しているかを判定するための判定手段と、
前記判定手段により前記終了条件が成立していないと判定されたことに応答して、前記活性値算出手段により算出された述語テンプレートの内、活性値の絶対値がしきい値以上の述語テンプレートからなる新たなシードテンプレートを選択し、当該新たに選択されたシードテンプレートにより、前記シードテンプレート記憶部の記憶内容を更新するための更新手段と、
前記更新手段による更新が行われたことに応答して、前記述語テンプレートペア収集手段、前記名詞ペア収集手段、前記述語テンプレートペア収集手段、前記構築手段、及び前記活性値算出手段による処理を再実行させるための手段とを含む、請求項1〜請求項3のいずれかに記載の述語テンプレート収集装置。 - 前記構築手段は、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートに対応するノードが前記テンプレートネットワーク内に存在しないときには、当該述語テンプレートに対応するノードを追加するための手段と、
前記述語テンプレートペア収集手段により収集された述語テンプレートペアをなす述語テンプレートの間にリンクを生成するためのリンク手段とを含み、
前記リンク手段は、各リンクにより接続される述語テンプレートの活性が同じか否かにしたがって、各リンクに活性の一致又は不一致を示す属性を付与し、
前記構築手段はさらに、前記リンク手段により生成される各リンクに、他のノードとのリンクの数の関数である重みを付与するための重み付与手段を含み、
前記重み付与手段が付与する重みは、当該リンクの前記属性が前記一致を示す値のときと、前記不一致を示す値のときとで符号が異なる、請求項1〜請求項4のいずれかに記載の述語テンプレート収集装置。 - 前記活性値算出手段は、前記テンプレートネットワーク内の各リンクの重みと、各ノードに割当てられる活性値との関数であって、以下の式
ただし、前記シードテンプレートのうち、極性が活性のものにはプラスの極性及び活性値が、不活性のものにはマイナスの極性及び活性値が、それぞれ付与される、請求項5に記載の述語テンプレート収集装置。 - 請求項1〜請求項6のいずれかに記載された述語テンプレート収集装置と、
前記述語テンプレート収集装置により収集された述語テンプレートを記憶するための述語テンプレート記憶手段と、
前記述語テンプレート記憶手段に記憶された述語テンプレートのうち、特定の活性/不活性の述語テンプレートの組合せと、特定の種類の接続詞とからなる述語テンプレートペアを含むフレーズペアを所定のコーパスから収集するためのフレーズペア収集手段と、
前記フレーズペア収集手段により収集されたフレーズペア内で述語テンプレートと共起している名詞ペアと、当該フレーズペア内の述語テンプレートの極性とが特定の組合せになっているものを抽出することで、所定の関係を表現するフレーズペアを選択するためのフレーズ選択手段とを含む、特定フレーズペア収集装置。 - さらに、前記フレーズ選択手段により選択されたフレーズペアの各々について、前記各フレーズペアを構成する述語テンプレートの活性値と、当該フレーズペアに含まれる名詞ペアの、前記コーパス内での共起関係との関数として、前記所定の関係の強さを表すスコアを算出するためのスコア算出手段と、
前記スコア算出手段により算出されたスコアの順番で前記フレーズ選択手段により選択されたフレーズペアを整列させるための手段とを含む、請求項7に記載の特定フレーズペア収集装置。 - コンピュータが実行可能なコンピュータプログラムであって、当該コンピュータを、請求項1〜請求項8のいずれかに記載の全ての手段として機能させる、コンピュータプログラム。
Priority Applications (6)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012039966A JP5924666B2 (ja) | 2012-02-27 | 2012-02-27 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
EP13754814.5A EP2821923B1 (en) | 2012-02-27 | 2013-01-23 | Predicate template gathering device, specified phrase pair gathering device and computer program for said devices |
US14/377,988 US9582487B2 (en) | 2012-02-27 | 2013-01-23 | Predicate template collecting device, specific phrase pair collecting device and computer program therefor |
KR1020147023682A KR101972408B1 (ko) | 2012-02-27 | 2013-01-23 | 술어 템플릿 수집 장치, 특정 프레이즈 페어 수집 장치, 및 이들을 위한 컴퓨터 프로그램 |
PCT/JP2013/051326 WO2013128984A1 (ja) | 2012-02-27 | 2013-01-23 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
CN201380011077.2A CN104137097B (zh) | 2012-02-27 | 2013-01-23 | 谓语模板收集装置以及特定短语对收集装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012039966A JP5924666B2 (ja) | 2012-02-27 | 2012-02-27 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015205486A Division JP2016042364A (ja) | 2015-10-19 | 2015-10-19 | コンピュータによる自然言語処理のためのコンピュータ読取可能な辞書及びそれを記憶した記憶媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2013175097A JP2013175097A (ja) | 2013-09-05 |
JP5924666B2 true JP5924666B2 (ja) | 2016-05-25 |
Family
ID=49082189
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012039966A Expired - Fee Related JP5924666B2 (ja) | 2012-02-27 | 2012-02-27 | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム |
Country Status (6)
Country | Link |
---|---|
US (1) | US9582487B2 (ja) |
EP (1) | EP2821923B1 (ja) |
JP (1) | JP5924666B2 (ja) |
KR (1) | KR101972408B1 (ja) |
CN (1) | CN104137097B (ja) |
WO (1) | WO2013128984A1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230020080A1 (en) * | 2021-04-12 | 2023-01-19 | Adishesh Kishore | Relationship builder to relate data across multiple entities/nodes |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5825676B2 (ja) * | 2012-02-23 | 2015-12-02 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及びコンピュータプログラム |
JP6150291B2 (ja) * | 2013-10-08 | 2017-06-21 | 国立研究開発法人情報通信研究機構 | 矛盾表現収集装置及びそのためのコンピュータプログラム |
JP5907393B2 (ja) * | 2013-12-20 | 2016-04-26 | 国立研究開発法人情報通信研究機構 | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム |
JP6403382B2 (ja) * | 2013-12-20 | 2018-10-10 | 国立研究開発法人情報通信研究機構 | フレーズペア収集装置、及びそのためのコンピュータプログラム |
JP5904559B2 (ja) | 2013-12-20 | 2016-04-13 | 国立研究開発法人情報通信研究機構 | シナリオ生成装置、及びそのためのコンピュータプログラム |
JP6551968B2 (ja) * | 2015-03-06 | 2019-07-31 | 国立研究開発法人情報通信研究機構 | 含意ペア拡張装置、そのためのコンピュータプログラム、及び質問応答システム |
JP6347519B2 (ja) * | 2015-05-15 | 2018-06-27 | 日本電信電話株式会社 | 推移矛盾収集装置、方法、及びプログラム |
JP6618735B2 (ja) | 2015-08-31 | 2019-12-11 | 国立研究開発法人情報通信研究機構 | 質問応答システムの訓練装置及びそのためのコンピュータプログラム |
WO2017104571A1 (ja) * | 2015-12-14 | 2017-06-22 | 日本電気株式会社 | 情報処理装置、情報処理方法、及び、記録媒体 |
US10706044B2 (en) | 2016-04-06 | 2020-07-07 | International Business Machines Corporation | Natural language processing based on textual polarity |
US20170293620A1 (en) * | 2016-04-06 | 2017-10-12 | International Business Machines Corporation | Natural language processing based on textual polarity |
US20170293621A1 (en) * | 2016-04-06 | 2017-10-12 | International Business Machines Corporation | Natural language processing based on textual polarity |
JP6721179B2 (ja) * | 2016-10-05 | 2020-07-08 | 国立研究開発法人情報通信研究機構 | 因果関係認識装置及びそのためのコンピュータプログラム |
JP6929539B2 (ja) * | 2016-10-07 | 2021-09-01 | 国立研究開発法人情報通信研究機構 | ノン・ファクトイド型質問応答システム及び方法並びにそのためのコンピュータプログラム |
US20190065583A1 (en) * | 2017-08-28 | 2019-02-28 | International Business Machines Corporation | Compound q&a system |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
KR102111609B1 (ko) * | 2018-04-26 | 2020-05-15 | 대한민국 | 재난속성정보 추출 시스템 및 방법 |
JP7091295B2 (ja) * | 2019-09-06 | 2022-06-27 | 株式会社東芝 | 解析装置、解析方法及びプログラム |
Family Cites Families (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2003014967A2 (fr) | 2001-08-10 | 2003-02-20 | Communications Research Laboratory, Independent Administrative Institution | Algorithme de generation de texte dans une langue tierce par entree de textes multilingues, dispositif et programme correspondants |
US7254530B2 (en) | 2001-09-26 | 2007-08-07 | The Trustees Of Columbia University In The City Of New York | System and method of generating dictionary entries |
US8155946B2 (en) * | 2002-12-23 | 2012-04-10 | Definiens Ag | Computerized method and system for searching for text passages in text documents |
JP2005031979A (ja) | 2003-07-11 | 2005-02-03 | National Institute Of Advanced Industrial & Technology | 情報処理方法、情報処理プログラム、情報処理装置およびリモートコントローラ |
US7970600B2 (en) * | 2004-11-03 | 2011-06-28 | Microsoft Corporation | Using a first natural language parser to train a second parser |
WO2008075524A1 (ja) * | 2006-12-18 | 2008-06-26 | Nec Corporation | 極性推定システム、情報配信システム、極性推定方法及び、極性推定用プログラム、及び評価極性推定用プログラム |
US7899666B2 (en) * | 2007-05-04 | 2011-03-01 | Expert System S.P.A. | Method and system for automatically extracting relations between concepts included in text |
US20090048823A1 (en) | 2007-08-16 | 2009-02-19 | The Board Of Trustees Of The University Of Illinois | System and methods for opinion mining |
CN101377770B (zh) | 2007-08-27 | 2017-03-01 | 微软技术许可有限责任公司 | 中文组块分析的方法及系统 |
JP5536518B2 (ja) | 2009-04-23 | 2014-07-02 | インターナショナル・ビジネス・マシーンズ・コーポレーション | システムの自然言語仕様から当該システム用のシステム・モデル化メタモデル言語モデルを自動的に抽出するための方法、装置及びコンピュータ・ |
US8650023B2 (en) * | 2011-03-21 | 2014-02-11 | Xerox Corporation | Customer review authoring assistant |
US8532981B2 (en) * | 2011-03-21 | 2013-09-10 | Xerox Corporation | Corpus-based system and method for acquiring polar adjectives |
US20140025372A1 (en) * | 2011-03-28 | 2014-01-23 | Nec Corporation | Text analyzing device, problematic behavior extraction method, and problematic behavior extraction program |
-
2012
- 2012-02-27 JP JP2012039966A patent/JP5924666B2/ja not_active Expired - Fee Related
-
2013
- 2013-01-23 CN CN201380011077.2A patent/CN104137097B/zh not_active Expired - Fee Related
- 2013-01-23 KR KR1020147023682A patent/KR101972408B1/ko active IP Right Grant
- 2013-01-23 US US14/377,988 patent/US9582487B2/en not_active Expired - Fee Related
- 2013-01-23 WO PCT/JP2013/051326 patent/WO2013128984A1/ja active Application Filing
- 2013-01-23 EP EP13754814.5A patent/EP2821923B1/en not_active Not-in-force
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20230020080A1 (en) * | 2021-04-12 | 2023-01-19 | Adishesh Kishore | Relationship builder to relate data across multiple entities/nodes |
Also Published As
Publication number | Publication date |
---|---|
EP2821923A4 (en) | 2015-12-02 |
KR20140129053A (ko) | 2014-11-06 |
US9582487B2 (en) | 2017-02-28 |
KR101972408B1 (ko) | 2019-04-25 |
CN104137097B (zh) | 2017-02-22 |
US20150039296A1 (en) | 2015-02-05 |
EP2821923B1 (en) | 2016-09-07 |
WO2013128984A1 (ja) | 2013-09-06 |
EP2821923A1 (en) | 2015-01-07 |
CN104137097A (zh) | 2014-11-05 |
JP2013175097A (ja) | 2013-09-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5924666B2 (ja) | 述語テンプレート収集装置、特定フレーズペア収集装置、及びそれらのためのコンピュータプログラム | |
US10664505B2 (en) | Method for deducing entity relationships across corpora using cluster based dictionary vocabulary lexicon | |
Kotov et al. | Modeling and analysis of cross-session search tasks | |
Dehkharghani et al. | Sentimental causal rule discovery from Twitter | |
Vilares et al. | A syntactic approach for opinion mining on Spanish reviews | |
CA2484410C (en) | System for identifying paraphrases using machine translation techniques | |
WO2015093541A1 (ja) | シナリオ生成装置、及びそのためのコンピュータプログラム | |
US9110985B2 (en) | Generating a conceptual association graph from large-scale loosely-grouped content | |
US9183285B1 (en) | Data clustering system and methods | |
JP6403382B2 (ja) | フレーズペア収集装置、及びそのためのコンピュータプログラム | |
US20070016863A1 (en) | Method and apparatus for extracting and structuring domain terms | |
JP5907393B2 (ja) | 複雑述語テンプレート収集装置、及びそのためのコンピュータプログラム | |
CN112989208B (zh) | 一种信息推荐方法、装置、电子设备及存储介质 | |
Martinez-Rico et al. | Can deep learning techniques improve classification performance of vandalism detection in Wikipedia? | |
Ma et al. | Implicit discourse relation identification for open-domain dialogues | |
CN109284389A (zh) | 一种文本数据的信息处理方法、装置 | |
Carvalho et al. | AffectPT-br: an Affective Lexicon based on LIWC 2015 | |
JP2016042364A (ja) | コンピュータによる自然言語処理のためのコンピュータ読取可能な辞書及びそれを記憶した記憶媒体 | |
Kulkarni et al. | Sortinghat: A framework for deep matching between classes of entities | |
Sagae et al. | Image retrieval with textual label similarity features | |
CN113505889A (zh) | 图谱化知识库的处理方法、装置、计算机设备和存储介质 | |
Suzuki et al. | What is your tweet worldview? Mapping the topic structure of tweets on the Wikipedia | |
CN114969244A (zh) | 用户画像构建方法、装置、计算机设备和存储介质 | |
WO2017138057A1 (ja) | 文章生成システム及び文章生成方法 | |
Kotov et al. | Modeling and Analyses of Multi-Session Search Tasks |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20141028 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150818 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20151019 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20160322 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20160412 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5924666 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
LAPS | Cancellation because of no payment of annual fees |