JP6590086B2

JP6590086B2 - 情報処理システム、情報処理方法、及び、プログラム

Info

Publication number: JP6590086B2
Application number: JP2018560270A
Authority: JP
Inventors: シルバダニエルゲオルグアンドラーデ; 陽太郎渡邉
Original assignee: NEC Corp
Current assignee: NEC Corp
Priority date: 2016-02-29
Filing date: 2016-02-29
Publication date: 2019-10-16
Anticipated expiration: 2036-02-29
Also published as: WO2017149559A1; JP2019511797A; US11200453B2; US20210192277A1

Description

本発明は、情報処理システム、情報処理方法、及び、コンピュータが読み取り可能な記録媒体に関する。

論理ベース推論エンジンでは、２つのイベントの間の含意（implication）の度合いを用いて推論を行う。イベントが、動詞を一つだけ含む、表現または文、として定義されると仮定する。この場合、イベントは、述語項構造（ＰＡＳ（predicated argument structure））として表される。例えば、イベント「Peter was attacked by a dog」は、ｖｅｒｂ＝「attack」、ａｒｇ０＝「dog」、及び、ａｒｇ１＝「Peter」で表される。ここで、ａｒｇ０は意味的な主語を示し、ａｒｇ１は意味的な目的語を示す。以下の説明では、イベントは、述語項構造を用いて、（dog, attack, Peter）のようにも表される。

論理ベース推論エンジンにおける、イベント間の含意度合いの適用として、主に、以下の三つがある。

１）語彙の揺らぎの解消。例えば、知識ベース（ＢＫ（knowledge base））で、イベント「car drives」が定義され、入力として、観測「automobile drives」が記述されると仮定する。この場合、「automobile drives」は、イベント「car drives」の語彙の揺らぎの１つである。従って、「automobile drives」は「car drives」を含意する（「automobile drives」＝＞「car drives」）と推論される。ここで、記号「＝＞」は、記号の左側のイベントが、記号の右側のイベントを含意することを示す。

２）伴意関係（entailment relation）の検出。例えば、ＢＫで、イベント「Peter goes home」が定義され、入力として、観測「Peter limps home」が記述されると仮定する。この場合、イベント「Peter limps home」はイベント「Peter goes home」を含意する。従って、「Peter limps home」は「Peter goes home」を含意する（「Peter limps home」＝＞「Peter goes home」）と推論される。

３）時間関係（temporal relation）の検出。例えば、ＢＫで、イベント「car drives」が定義され、入力として、観測「driver enters car」が記述されると仮定する。この場合、イベント「car drives」は、イベント「driver enters car」の後に発生する。従って、「driver enters car」は「car drives」を含意する（「driver enters car」＝＞「car drives」）と推論される。

第１及び第２の適用は、例えば、非特許文献２に記載されている既存の同義語辞書を用いることにより実現される。これより、論理推論システムの堅牢性を高めることができる。より一般的には、これらの適用は、非特許文献１に記載のテキスト伴意検証システムにより実現される。

第３の適用は、非特許文献４に記載されているスクリプト学習により部分的に行われる。非特許文献４では、｛「sitting down in restaurant」＝＞「order meal」｝のような時間的な（前後の）順序が検出される。

関連する技術として、非特許文献３は、テキスト文書間の意味的な一致度を検出するモデルを学習する方法を開示している。非特許文献５は、畳み込み層を用いるニューラルネットワーク構造を開示している。非特許文献６は、ニューラルネットワークを用いるイベント予測を開示している。

Ion Androutsopoulos, et al., "A Survey of Paraphrasing and Textual Entailment Methods", Journal of Artificial Intelligence Research, Vol. 38, pp. 135-187, 2010 Tushar Khot, et al., "Markov Logic Networks for Natural Language Question Answering", arXiv, 2015 Bin Bai, et al., "Supervised Semantic Indexing", Proceedings of the 18th ACM conference on Information and knowledge management, pp.187-196, 2009 Ashutosh Modi, et al., "Inducing Neural Models of Script Knowledge", Proceedings of the Eighteenth Conference on Computational Language Learning, pp.49-57, 2014 Ronan Collobert, et al., "Natural Language Processing (almost) from Scratch", Journal of Machine Learning Research, Vol. 12, pp.2493-2537, 2011 Mark Granroth-Wilding, et al., "What Happens Next? Event Prediction Using a Compositional Neural Network", Proceedings 13th AAAI Conference on Artificial Intelligence, 2016 Fellbaum, Christiane "English Verbs as a Semantic Net", International Journal of Lexicography, Vol. 3, Issue 4, pp.278-301, 1990

上述の非特許文献では、時間関係、及び、伴意関係の２種類の含意が個別タスクとして処理される。そのため、時間関係を検出するためのトレーニングデータ、及び、伴意関係を検出するためのトレーニングデータを組み合わせて機械学習を行うことができない。特に、時間関係の検出に利用可能なトレーニングデータが不十分である場合、機械学習を適切に実行できない。

本発明の目的は、上述の問題を解決し、イベント間の関係の検出を改善できる情報処理システム、情報処理方法、及び、コンピュータが読み取り可能な記録媒体を提供することにある。

本発明の一態様における情報処理システムは、トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を記憶する、トレーニングデータ記憶手段と、分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する学習手段と、を備える。

本発明の一態様における情報処理方法は、トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を読み出し、分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する。

本発明の一態様におけるコンピュータが読み取り可能な記録媒体は、コンピュータに、トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を読み出し、分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する、処理を実行させるプログラムを格納する。

本発明の効果は、イベント間の関係の検出を改善できることである。

本発明の第１の実施形態における、特徴的な構成を示すブロック図である。本発明の第１の実施形態における、学習システム１００の構成を示すブロック図である。本発明の第１の実施形態における、学習システム１００がコンピュータにより実現される場合の構成を示すブロック図である。本発明の第１の実施形態における、学習システム１００の処理を示すフローチャートである。本発明の第１の実施形態における、トレーニングデータの例を示す図である。本発明の第１の実施形態における、ニューラルネットワークの例を示す図である。本発明の第２の実施形態における、ニューラルネットワークの例を示す図である。非特許文献４に提案されているニューラルネットワークに基づく、時間関係を検出するためのニューラルネットワークを示す図である。

（前提事項）
まず、第１の実施形態及び第２の実施形態において用いられる前提事項について以下に説明する。

最も簡単な状況として、トレーニングデータが形式｛「ａ」＝＞「ｂ」｝で与えられるトレーニング用イベントペアを含むと仮定する。ここで、「ａ」、及び、「ｂ」は、２つの単独イベントを表す。イベントは、述語項構造、または、neo-Davidsonian論理表現で表すことができる。また、形式｛「ａ」＝＞「ｂ」｝において、イベント「ａ」を、観測イベント、または、第１イベントとも記載し、イベント「ｂ」を、予測イベント、または、第２イベントとも記載する。

Ｖを全ての単語を含むボキャブラリー（vocabulary）とし、Ｖ中の全ての単語に対して特徴ベクトルが与えられると仮定する。特徴ベクトルは、Bag-of-Wordsにより定義できる。この場合、特徴ベクトルは、ボキャブラリー中の単語の数である次元ｓを有する。特徴ベクトルは、非特許文献１に開示されているWord Embeddingによっても定義できる。Word Embeddingは、Ｖ中の各単語に対して学習される。

まず、各イベントに対する特徴ベクトル表現を生成する。イベントの特徴ベクトル表現を生成するための１つの方法として、数１式で表されるように、述語に対する特徴ベクトル、及び、各項に対する特徴ベクトルを合計することが考えられる。数１式において、ｘ_ａは、イベント「ａ」に対する特徴ベクトル、ｘ_ａ，ｉは、イベントのｉ番目の単語に対する特徴ベクトル、ｋは、イベントに含まれる単語の数である。

また、イベントの特徴ベクトル表現を生成するための他の方法として、非特許文献５に開示されているように、畳み込みニューラルネットワークを用いる方法や、非特許文献６に開示されているような自動エンコーダ（auto-encoder）を用いて、イベントを固定長ベクトルに集約するイベント表現を見つける方法が考えられる。

ｋを固定値と仮定すると、イベントの特徴ベクトル表現を生成するためのさらに他の方法として、数２式で表されるように、各単語の特徴ベクトルを付加して１つの長い特徴ベクトルとする方法が考えられる。

以下の説明では、簡単のため、ｋが２に固定され、ｘ_ａ，０、ｘ_ａ，１、及び、ｘ_ａ，２が、それぞれ、意味的主語、述語、及び、意味的目的語の特徴ベクトルに対応していると仮定する。例えば、イベント「Peter kisses Sara」では、述語は「kisses」、主語は「Peter」、目的語は「Sara」である。

さらに、以下の説明では、ｘ_ａ，０、ｘ_ａ，１、及び、ｘ_ａ，２が、word2vecのような、これらの単語のWord Embeddingにより表されると仮定する。また、簡単のため、両方のイベントで、主語、及び、目的語は同じであり（同じ表層形式であり）、同じエンティティを示していると仮定する。例えば、イベントペア（Peter, buy, car）及び（Peter, sell, car）に関し、両方のイベントに含まれる「Peter」は同じ人物を示しており、「car」は同じ車を示している。また、各Word Embeddingは、次元ｄを有すると仮定する。

また、含意関係（以下、単に、関係（relation）とも記載する）は２種類：時間関係（前後関係（before-after relation）または将来予測関係（future prediction relation）とも記載）、または、伴意関係に分類できると仮定する。時間関係は、記号「＝＞_ｔ」で表される。記号「＝＞_ｔ」は、記号の左側のイベントが、記号の右側のイベントの前に発生することを示す。伴意関係は、記号「＝＞_ｅ」で表される。記号「＝＞_ｅ」は、記号の左側のイベントが、記号の右側のイベントを伴意する（論理的に含意する）ことを示す。伴意関係、及び、論理的含意関係は、等価であると考えられる。時間関係、及び、伴意関係は、それぞれ、本発明の第１関係、及び、第２関係の一実施形態である。

時間関係を検出するためには、非特許文献４に開示されているニューラルネットワークを用いることができる。図８は、非特許文献４に提案されているニューラルネットワークに基づく、時間関係を検出するためのニューラルネットワークを示す図である。まず、隠れ層（hidden layer）において、次元ｈを有するEvent Embedding ｅ_ａ、ｅ_ｂが、数３式を用いて計算される。数３式において、Ｍ_ａ、及び、Ｍ_ｂは、次元ｈ×３ｄを有する重み行列である。また、ｇは、要素ごとに適用される、シグモイド関数のような非線形関数である。

次に、得られたEvent Embedding ｅ_ａ、ｅ_ｂについて、イベント「ａ」がイベント「ｂ」の前に発生するかどうかを示すスコアｓ（ａ，ｂ）を、数４式を用いて計算する。数４式において、ｗ_ａ、及び、ｗ_ｂは、次元ｈを有する重みベクトルである。

ｓ＞０が成り立つ場合、イベント「ａ」がイベント「ｂ」の前に発生すると分類され、ｓ＞０が成り立たない場合、イベント「ｂ」がイベント「ａ」の前に発生すると分類される。

ここで、トレーニングデータにトレーニング用イベントペアｐ１：｛（Peter, buy, car）＝＞_ｔ（Peter, sell, car）｝が含まれ、実行時に、テスト用イベントペアｐ２：｛（Peter, purchase, car）＝＞（Peter, sell, car）｝を用いて、時間関係が成り立つかどうかをテストする場合を考える。「buy」、及び、「purchase」は、同様の文脈に現われるので、これらの単語のWord Embeddingも同様であると期待される。したがって、テスト用イベントペアｐ２に対しては、トレーニング用イベントペアｐ１と同様のスコアが得られ、テスト用イベントペアｐ２は正しく分類される。

次に、実行時に、テスト用イベントペアｐ３：｛（Peter, buy, car）＝＞（Peter, purchase, car）｝を用いて、時間関係が成り立つかどうかをテストする場合を考える。「buy」、及び、「purchase」は同義語であるため、｛（Peter, buy, car）＝＞_ｅ（Peter, purchase, car）｝が成り立つ。しかしながら、ピーターが車を既に買っている場合、彼が同じ車を再び買うことは期待できないので、｛（Peter, buy, car）＝＞_ｔ（Peter, purchase, car）｝は、一般的には成り立たない（左側の主語及び目的語は、右側の同じ主語及び目的語、すなわち、同じ人物「Peter」及び同じ「car」を指していると仮定する）。

テスト用イベントペアｐ３を分類する場合、当該テスト用イベントペアｐ３をトレーニングデータ中のイベントペアｐ１と比較する。「sell」及び「purchase」に対応する単語は同様の文脈に現われる傾向があるので（すなわち、同様の主語及び目的語を有しており）、これらの単語のWord Embeddingも同様となる。その結果、テスト用イベントペアｐ３に対して、トレーニング用イベントペアｐ１と同様のスコアが得られる。結果として、テスト用イベントペアｐ３は、時間関係｛（Peter, buy, car）＝＞_ｔ（Peter, purchase, car）｝として、間違って分類される。

（第１の実施形態）
本発明の第１の実施形態について以下に説明する。

伴意関係は、実際には、時間関係を補完すると考えられる。すなわち、イベントペアが、同時に、伴意関係、及び、時間関係の両方にあることはない。例えば、次の伴意関係：｛「Peter buys book」＝＞_ｅ「Peter purchase book）」｝、｛「Peter kills John」＝＞_ｅ「Peter wounds John」｝、及び、｛「Peter cooks food」＝＞_ｅ「Peter prepares food」｝のいずれも、時間関係として解釈することはできない。すなわち、記号「＝＞_ｅ」に代わって、記号「＝＞_ｔ」を用いることはできない。これは、形式的には、（「ａ」＝＞_ｅ「ｂ」）＝＞_ｅ¬（「ａ」＝＞_ｔ「ｂ」）と表現できる。

なお、伴意関係を有するイベントペアを、図８に示すニューラルネットワークにおける、時間関係に対する負例のトレーニング用ペアとして用いても、時間関係の検出が必ずしも向上する訳ではない。トレーニングデータとして、伴意関係を有するイベントペアが、時間関係を有するイベントペアよりもかなり多く存在する場合、ネットワークパラメータは、主に伴意関係を有するイベントペアに対して特化され、時間関係を有するイベントペアの学習は、ほとんど有効ではない。これは、ネットワークパラメータの学習が、伴意関係を有するイベントペアに対して支配的に行われるからである。

図８に示すニューラルネットワークに起因する不具合を解消するために、本発明の第１の実施形態におけるニューラルネットワークでは、時間関係、及び、伴意関係を共に用いて分類を行う。

本発明の第１の実施形態の構成について以下に説明する。図２は、本発明の第１の実施形態における、学習システム１００の構成を示すブロック図である。学習システム１００は、本発明の情報処理システムの一実施形態である。図２を参照すると、本発明の第１の実施形態における学習システム１００は、特徴ベクトル記憶部１１０、トレーニングデータ記憶部１２０、学習部（学習ユニットとも記載する）１３０、及び分類部（分類ユニットとも記載する）１４０を含む。

特徴ベクトル記憶部１１０は、ボキャブラリー中のそれぞれの単語の特徴ベクトルを格納する。特徴ベクトルは、例えば、Word Embeddingにより定義される。特徴ベクトルは、Bag-of-Wordsにより定義されてもよい。また、単語の特徴量を表すことができれば、特徴ベクトルは、他のベクトルにより定義されてもよい。特徴ベクトルは、ユーザ等により入力され、特徴ベクトル記憶部１１０に予め格納される。

トレーニングデータ記憶部１２０は、トレーニングデータとして、イベントペア（トレーニング用イベントペア）を格納する。図５は、本発明の第１の実施形態における、トレーニングデータの例を示す図である。図５の例では、各トレーニングデータは、イベントペアと、当該イベントペアの含意関係の種類（記号「＝＞_ｔ」（時間関係）、または、記号「＝＞_ｅ」（伴意関係））と、を含む。トレーニングデータは、ユーザ等により入力され、トレーニングデータ記憶部１２０に予め格納される。

学習部１３０は、イベント間の含意関係を分類するためのニューラルネットワークを学習する。

分類部１４０は、分類対象のイベントペア（テスト用イベントペア）の含意関係を分類する。

本発明の第１の実施形態のニューラルネットワークについて以下に説明する。

ニューラルネットワークは、時間関係、及び、伴意関係の両方の関係について特化され、これらの知識を最終的な分類器で組み合わせることにより、時間関係の分類、または、伴意関係の分類を改善する。図６は、本発明の第１の実施形態における、ニューラルネットワークの例を示す図である。第１の実施形態のニューラルネットワークは、入力層、イベント層、特徴層（特徴抽出器とも記載する）、及び、結合特徴層（結合層とも記載する）を含む。特徴層として、時間特徴層、及び、伴意特徴層が定義される。ニューラルネットワークはさらに、出力層として、時間スコア層、伴意スコア層、及び、分類層を含む。なお、時間特徴層、及び、伴意特徴層は、それぞれ、本発明の第１層、及び、第２層の一実施形態である。

入力層は、図８のニューラルネットワークの入力層と同じである。入力層は、それぞれ、含意関係の分類対象である、イベントペア「ａ」、「ｂ」の特徴ベクトルｘ_ａ、ｘ_ｂの入力を受け付ける。

イベント層は、図８のニューラルネットワークの隠れ層と同じである。イベント層は、それぞれ、イベント「ａ」、「ｂ」の特徴量を表すEvent Embedding ｅ_ａ、ｅ_ｂを、入力層の出力を用いて、数３式により計算する。

時間特徴層は、時間関係｛「ａ」＝＞_ｔ「ｂ」｝の特徴量を表す時間特徴量ｆ_ｔ（ａ，ｂ）を、イベント層の出力を用いて、数５式により計算する（時間特徴量を、イベント「ａ」、及び、「ｂ」の特徴量から抽出する）。数５式において、時間特徴量ｆ_ｔ（ａ，ｂ）は、次元ｈ_２を有する。また、Ｍ_ｔは、次元ｈ_２×２ｈを有する重み行列である。

同様に、伴意特徴層は、伴意関係｛「ａ」＝＞_ｅ「ｂ」｝の特徴量を表す伴意特徴量ｆ_ｅ（ａ，ｂ）を、イベント層の出力を用いて、数６式により計算する（伴意特徴量を、イベント「ａ」、及び、「ｂ」の特徴量から抽出する）。数６式において、伴意特徴量ｆ_ｅ（ａ，ｂ）は、次元ｈ_２を有する。また、Ｍ_ｅは、次元ｈ_２×２ｈを有する重み行列である。

時間スコア層は、時間スコアｓ_ｔ（ａ，ｂ）を、時間特徴層の出力を用いて、数７式により計算する。数７式において、ｗ_ｔは、次元ｈ_２を有する重みベクトルである。

同様に、伴意スコア層は、伴意スコアｓ_ｅ（ａ，ｂ）を、伴意特徴層の出力を用いて、数８式により計算する。数８式において、ｗ_ｅは、次元ｈ_２を有する重みベクトルである。

結合特徴層は、時間関係｛「ａ」＝＞_ｔ「ｂ」｝、及び、伴意関係｛「ａ」＝＞_ｅ「ｂ」｝の結合特徴量を表す結合特徴量ｆ_ｊ（ａ，ｂ）を、時間特徴層、及び、伴意特徴層の出力を用いて、数９式により計算する（結合特徴量を、時間特徴量、及び、伴意特徴量から抽出する）。数９式において、結合特徴量ｆ_ｊ（ａ，ｂ）は、次元ｈ_３を有する。また、Ｍ_ｊは、次元ｈ_３×２ｈ_２を有する重み行列である。

分類層は、時間関係、伴意関係、または、それらの両方を分類するための分類スコアを、結合特徴層の出力を用いて計算する。分類層は、分類スコアとして、時間関係、伴意関係、または、他の関係である確率を表す分類確率を、ソフトマックス（soft-max）関数により計算してもよい。また、分類層は、時間関係か伴意関係に分類するための単一の分類スコアｓ_ｃ（ａ，ｂ）を、数１０式により計算してもよい。数１０式において、ｗ_ｃは、次元ｈ_３を有する重みベクトルである。

ニューラルネットワークの全ての層は、通常の誤差逆伝搬法（standard back-propagation）により学習してもよい。また、必要に応じて、それらの学習を、ドロップアウトやＬ２／Ｌ１正規化と組み合わせてもよい。

学習部１３０によるニューラルネットワークの学習は、例えば、以下の３ステップで行われる。

ステップ１）学習部１３０は、イベント層のパラメータ（重み行列Ｍ_ａ、Ｍ_ｂ）を、例えば、非特許文献６に記載されているように、入力（自動エンコーダ）を再構築するように学習する。

ステップ２）学習部１３０は、例えば、非特許文献５に記載されている数１１式、及び、数１２式で表されるランキングマージン損失（rank margin loss）を最小化するように、時間特徴層、及び、伴意特徴層のパラメータ（重み行列Ｍ_ｔ、Ｍ_ｅ）を個別に学習する。数１１式、及び、数１２式において、ｔは、ユーザ等により予め決定されている閾値（例えば「１」）である。数１１式において、ｓ_ｔ（ａ，ｂ）、及び、ｓ_ｔ（ａ，ｂ’）（ｂ≠ｂ’）は、トレーニングデータ中の時間関係に関するイベントペアの正例、及び、負例のそれぞれに対するスコアである。時間スコア層の重みベクトルｗ_ｔは、誤差逆伝搬法を用いて、重み行列Ｍ_ｔと共に学習される。同様に、数１２式において、ｓ_ｅ（ａ，ｂ）、及び、ｓ_ｅ（ａ，ｂ’）（ｂ≠ｂ’）は、トレーニングデータ中の伴意関係に関するイベントペアの正例、及び、負例のそれぞれに対するスコアである。伴意スコア層の重みベクトルｗ_ｅは、誤差逆伝搬法を用いて、重み行列Ｍ_ｅと共に学習される。負例のイベント「ｂ’」は、例えば、トレーニングデータからランダムに抽出される。

時間特徴層、または、伴意特徴層の学習の間、イベント層のパラメータは固定されていてもよいし、誤差逆伝搬法により調整されてもよい。

ステップ３）学習部１３０は、結合特徴層のパラメータ（重み行列Ｍ_ｊ）を学習する。分類スコアとして、例えば、単一の分類スコアを計算する場合、ステップ２と同様に、数１３式で表されるランキングマージン損失を最小化するように、結合特徴層の重み行列Ｍ_ｊが学習される。数１３式において、ｓ_ｃ（ａ，ｂ）、及び、ｓ_ｃ（ａ，ｂ’）（ｂ≠ｂ’）は、トレーニングデータ中のイベントペアの正例、及び、負例のそれぞれに対するスコアである。時間関係を分類するための単一の分類スコアを計算する場合は、時間関係に関するイベントペアの正例、及び、負例が用いられる。例えば、時間関係に関し、トレーニング用の正例として｛「Peter buy book」＝＞_ｔ「Peter sell book」｝が、負例として｛「Peter buy book」＝＞_ｔ「Peter eat book」｝が用いられる。また、伴意関係を分類するための単一の分類スコアを計算する場合は、伴意関係に関するイベントペアの正例、及び、負例が用いられる。分類層の重みベクトルｗ_ｃは、誤差逆伝搬法を用いて、重み行列Ｍ_ｊと共に学習される。

分類スコアとして分類確率を計算する場合、重み行列Ｍ_ｊが、クロスエントロピー基準（cross-entropy criteria）により学習される。

いずれの場合でも、結合特徴量の学習の間、ステップ１及びステップ２により学習される層のパラメータは固定されていてもよいし、誤差逆伝搬法により調整されてもよい。

なお、特別な場合として、イベント層の時間特徴量ｆ_ｔ（ａ，ｂ）、及び、伴意特徴量ｆ_ｅ（ａ，ｂ）の次元ｈ_２を１に設定してもよい。この場合、時間特徴量ｆ_ｔ（ａ，ｂ）、及び、伴意特徴量ｆ_ｅ（ａ，ｂ）は、それぞれ、時間関係、及び、伴意関係に対するスコアリング関数と考えられ、上述のランキングマージン損失を用いて学習される。

学習システム１００は、ＣＰＵ（central processing unit）、及び、プログラムを格納する記憶媒体を含み、プログラム制御に従って動作するコンピュータでもよい。図３は、本発明の第１の実施形態における、学習システム１００がコンピュータにより実現される場合の構成を示すブロック図である。

図３を参照すると、学習システム１００は、ＣＰＵ１０１、記憶デバイス１０２（記憶媒体）、通信デバイス１０３、キーボード等の入力デバイス１０４、及び、ディスプレイ等の出力デバイス１０５を含む。ＣＰＵ１０１は、学習部１３０、及び、分類部１４０の機能を実現するためのコンピュータプログラムを実行する。記憶デバイス１０２は、特徴ベクトル記憶部１１０、及び、トレーニングデータ記憶部１２０の情報を格納する。通信デバイス１０３は、トレーニングデータ、及び／又は、テストデータを他のシステムから受信し、テストデータの分類結果を他のシステムに送信してもよい。入力デバイス１０４は、トレーニングデータ、及び／又は、テストデータをユーザ等から受け付けてもよい。出力デバイス１０５は、分類結果をユーザ等に出力（表示）してもよい。

図３の学習システム１００内の各部、及び、各ストレージは、それぞれ、有線または無線で相互に接続された、複数のデバイスに配置されてもよい。学習システム１００の学習、及び／又は、分類のサービスが、ユーザ等に、ＳａａＳ（Software as a Service）として提供されてもよい。

図３の学習システム１００内の各部、及び、各ストレージは、回路により実現されてもよい。この場合、「回路」は、シングルチップ、複数デバイス、チップセット、または、クラウドを概念的に含む用語として定義される。

次に、本発明の第１の実施形態における、学習システム１００の動作について説明する。

図４は、本発明の第１の実施形態における、学習システム１００の処理を示すフローチャートである。学習部１３０は、トレーニングデータとして、トレーニングデータ記憶部１２０からイベントペアを読み出す（ステップＳ１０１）。学習部１３０は、トレーニングデータとして読み出したイベントペアに含まれる単語の特徴ベクトルを読み出す（ステップＳ１０２）。学習部１３０は、特徴ベクトルを用いて、トレーニングデータとして読み出したイベントペアに対してニューラルネットワークのパラメータを学習する（ステップＳ１０３）。分類部１４０は、テストデータとして、分類対象のイベントペアの入力を受け付ける（ステップＳ１０４）。分類部１４０は、テストデータとして入力されたイベントペアについて、含意関係の分類を行う（ステップＳ１０５）。分類部１４０は、分類結果をユーザ等に出力する（ステップＳ１０６）。

次に、本発明の第１の実施形態における、学習システム１００による学習、及び、分類の例について説明する。

ここでは、図５に示すようなトレーニングデータが、トレーニングデータ記憶部１２０に格納され、当該トレーニングデータ中のイベントの特徴ベクトルが、特徴ベクトル記憶部１１０に格納されていると仮定する。

学習部１３０は、図５に示すように、時間関係に対する正例｛（Peter, buy, car）＝＞_ｔ（Peter, sell, car）｝、及び、伴意関係に対する正例｛（Peter, buy, car）＝＞_ｅ（Peter, acquire, car）｝を含むトレーニングデータを、トレーニングデータ記憶部１２０から読み出す。学習部１３０は、トレーニングデータに対して、ニューラルネットワークのパラメータを学習する。ここで、学習部１３０は、例えば、イベントペアが時間関係であるかどうかを判断するための単一の分類スコアを出力するニューラルネットワークを学習する。

テスト段階において、分類部１４０は、テストデータとして、イベントペア｛（Peter, buy, car）＝＞（Peter, purchase, car）｝の入力を受け付け、｛（Peter, buy, car）＝＞_ｔ（Peter, purchase, car）｝が成り立つかどうかを判断する。分類部１４０は、テストデータを、学習部１３０により学習されたニューラルネットワークに入力し、単一の分類スコアを取得する。分類部１４０は、単一の分類スコアを所定の閾値と比較することにより、テストデータの含意関係が時間関係に分類されるかどうかを判定する。

ここで、「purchase（購入する）」は、「sell（売る）」、及び、「acquire（取得する）」と同様の文脈（例えば、同様の主語、及び、目的語）に現われるので、これらの単語のWord Embeddingは類似する。しかしながら、「purchase」の意味は、「sell」よりも「acquire」に近いので、「purchase」のWord Embeddingは、「sell」よりも「acquire」に近い。その結果、テストデータ｛（Peter, buy, car）＝＞（Peter, purchase, car）｝は、時間関係を有するトレーニングデータ｛（Peter, buy, car）＝＞_ｔ（Peter, sell, car）｝よりも、伴意関係を有するトレーニングデータ｛（Peter, buy, car）＝＞_ｅ（Peter, acquire, car）｝に類似する。従って、ニューラルネットワークは、テストデータの含意関係が時間関係に分類されないことを示す単一の分類スコアを出力する。分類部１４０は、｛（Peter, buy, car）＝＞_ｔ（Peter, purchase, car）｝が成り立たないことを示す分類結果を出力する。

このように、本発明の第１の実施形態のニューラルネットワークは、伴意関係を有するトレーニングデータを活用して、時間関係の分類を改善する。テストデータが伴意関係を有するトレーニングデータに近い場合、テストデータは時間関係に分類されない。

次に、本発明の第１の実施形態における、特徴的な構成を説明する。

図１は、本発明の第１の実施形態における、特徴的な構成を示すブロック図である。

図１を参照すると、学習システム１００は、トレーニングデータ記憶部１２０、及び、学習部１３０を含む。トレーニングデータ記憶部１２０は、トレーニング用の第１イベント及び第２イベントから成るペア、及び、トレーニング用の第１イベント及び第２イベントから成るペアの間の関係を記憶する。ここで、関係は、第１関係または第２関係である。学習部１３０は、分類対象の第１イベント及び第２イベントから成るペアの間の関係を、第１関係または第２関係に分類するニューラルネットワークを、トレーニング用のペアを用いて学習する。ここで、ニューラルネットワークは、第１関係の特徴量を第１イベントの特徴量及び第２イベントの特徴量から抽出する第１層と、第２関係の特徴量を第１イベントの特徴量及び第２イベントの特徴量から抽出する第２層と、第１関係及び第２関係の結合特徴量を第１関係の特徴量及び第２関係の特徴量から抽出する結合層と、を含む。

本発明の第１の実施形態によれば、イベント間の関係の検出を改善できる。その理由は、学習部１３０が、第１関係の特徴量を第１及び第２イベントの特徴量から抽出する第１層、第２関係の特徴量を第１及び第２イベントの特徴量から抽出する第２層、及び、第１及び第２関係の結合特徴量を第１及び第２関係の特徴量から抽出する結合層を含むニューラルネットワークを学習するためである。

（第２の実施形態）
本発明の第２の実施形態について以下に説明する。本発明の第２の実施形態では、２種類よりも多くの種類の関係を共に用いて学習を行う。

動詞の伴意関係は、５グループに分類できる：第１グループは、同義語、すなわち、伴意関係が、単語間の双方向に成り立つ単語ペアである（例えば、「buy」と「purchase」）。他の４グループは、非特許文献７に従って、時間的な共拡張性（temporal co-extensiveness）を有するトロポニミー（troponymy）な関係（例えば、「limp」と「walk」）、完全時間的包含関係（proper temporal inclusion）を有する非トロポニミー（non-troponymy）な関係（例えば、「snore」と「sleep」や、「succeed」と「try」）、後向き前提（backward presupposition）（例えば、「tie」と「untie」）、及び、原因（cause）（例えば、「give」と「have」）のように定義できる。同義語、及び、トロポニミーグループを除いて、単語間の一方の方向に対するほとんどの伴意関係は、実際には、他方の方向に対する時間（前後）関係を示唆していると考えられる。

例えば、伴意関係｛「Peter snores」＝＞_ｅ「Peter sleeps」｝は、時間関係｛「Peter sleeps」＝＞_ｔ「Peter snores」｝（完全時間的包含関係）を示唆している。伴意関係｛「Peter unties shoes」＝＞_ｅ「Peter ties shoes」｝は、時間関係｛「Peter ties shoes」＝＞_ｔ「Peter unties shoes」｝（後向き前提）を示唆している。伴意関係｛「Peter gives money｝」＝＞_ｅ「Peter has money」｝は、時間関係｛「Peter has money」＝＞_ｔ「Peter gives money」｝（原因）を示唆している。

これは、形式的には、［（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）］＝＞［「ｂ」＝＞_ｔ「ａ」］と表現できる。この式の左側は、イベント「ａ」がイベント「ｂ」を伴意するが、同義ではない伴意関係を意味している。第２の実施形態では、（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）が成り立つ関係を、完全伴意関係（proper entailment relation）として定義し、（「ａ」＝＞_ｅ「ｂ」）＾（「ｂ」＝＞_ｅ「ａ」）が成り立つ他の（同義の）伴意関係と区別する。なお、完全伴意関係は、本発明の第３関係の一実施形態である。

例えば、伴意関係｛（Peter, kills, Bob）＝＞_ｅ（Peter, wounds, Bob）｝が成り立つ場合、時間関係｛（Peter, wounds, Bob）＝＞_ｔ（Peter, kills, Bob）｝も成り立つ。

図７は、本発明の第２の実施形態における、ニューラルネットワークの例を示す図である。第２の実施形態のニューラルネットワークでは、第１の実施形態のニューラルネットワークと同様の層に加えて、特徴層として、完全伴意特徴層が定義される。完全伴意特徴層は、本発明の第３層の実施形態であることに留意されたい。

完全伴意特徴層は、完全伴意関係の特徴量を表す完全伴意特徴量ｆ_ｐ（ａ，ｂ）を、他の特徴層と同様の方法で計算する（完全伴意特徴量をイベント「ａ」及びイベント「ｂ」の特徴量から抽出する）。結合特徴層は、結合特徴量ｆ_ｊ（ａ，ｂ）を、時間特徴層、伴意特徴層、及び、完全伴意特徴層の出力を用いて計算する（結合特徴量を、時間特徴量、伴意特徴量、及び、完全伴意特徴量から抽出する）。分類層は、関係を時間関係、伴意関係、または、完全伴意関係として分類するための分類スコアを、結合特徴層の出力を用いて計算する。

学習部１３０は、完全伴意特徴層のパラメータを、例えば、（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）が成り立つ正例のイベントペア、及び（「ａ」＝＞_ｅ「ｂ」）＾（「ｂ」＝＞_ｅ「ａ」）が成り立つ負例のイベントペアを用いて学習する。また、学習部１３０は、（同義の）伴意特徴層を、例えば（「ａ」＝＞_ｅ「ｂ」）＾（「ｂ」＝＞_ｅ「ａ」）が成り立つ正例のイベントペア、及び、（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）が成り立つ負例のイベントペアを用いて学習する。

学習部１３０は、時間関係、（同義の）伴意関係、または、完全伴意関係の、正例、及び、負例のイベントペアを用いて、（同義の）伴意関係と完全伴意関係をさらに区別するように、結合特徴層、及び、分類層を学習する。

本発明の第２の実施形態によれば、イベント間の関係を、２種類よりも多くの種類の関係として分類できる。その理由は、学習部１３０が、第３関係の特徴量を第１及び第２イベントの特徴量から抽出する第３層、及び、第１、第２、及び、第３関係の結合特徴量を、第１、第２、及び、第３関係の特徴量から抽出する結合層をさらに含むニューラルネットワークを学習するためである。

なお、第２の実施形態では、特徴層として、完全伴意特徴層が付加された。同様に、特徴層として、イベントの特徴量から他の特徴量を抽出するための、他の特徴層が付加されてもよい。例えば、イベントペアの両方のイベントに共通するトピックやコンテキストを抽出するために学習される「トピック特徴層（topic feature layer）」や「コンテキスト特徴層（context feature layer）」が付加されてもよい。例えば、イベント「Peter plays soccer」、及び、イベント「Peter loves soccer」は、共に、同じトピック「soccer」を有する。これに対し、イベント「Peter plays soccer」、及び、他のイベント「Peter plays guitar」は、同じトピックを共有しない。

この場合、トピックやコンテキストの類似度といった特徴量は、例えば、イベントの述語のWord Embedding間の内積（または、コサイン類似度）で与えられる類似度を包含する、１次元の特徴層に含めることができる。

さらに、他の特徴層として、イベントの特徴量から反意語特徴量を抽出するための「反意語特徴層（antonym feature layer）」を付加できる。これは、反意語（例えば、「buy」と「sell」や、「untie」と「tie」）が、時間関係の存在を示唆できるためである。

また、特徴層として、１つのイベントのみから言語モデル特徴量を抽出するための「言語モデル特徴層（language model feature）」が付加されてもよい。ここで、予測イベント（第２イベント）に対する言語モデル特徴層は、そのイベントが、観測イベント（第１イベント）とは無関係に発生する可能性を表す。例えば、イベントペアが｛「Peter buy book」＝＞「Peter eat book」｝である場合、第２イベント「Peter eat book」は起こりそうになく、第１イベントとは無関係である。言語モデル層は、「eat」が「book」のような物体を目的語に有する可能性は低いことから、イベント「Peter eat book」が発生する確率は低く、第１イベントとは無関係であることを検出できる。

また、学習部１３０は、完全伴意特徴層を付加する代わりに、上述の式［（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）］＝＞_ｅ［「ｂ」＝＞_ｔ「ａ」］に基づいて、［（「ａ」＝＞_ｅ「ｂ」）＾¬（「ｂ」＝＞_ｅ「ａ」）］が成り立つイベントペアから得られる［「ｂ」＝＞_ｔ「ａ」］が成り立つイベントペアを時間関係の正例として用いて、第１の実施形態で説明したニューラルネットワークを学習してもよい。

以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。

本発明は、伴意関係や時間関係のようなイベント間の関係を検出する推論システムやクラスタリングシステム等に適用できる。

１００学習システム
１０１ＣＰＵ
１０２記憶デバイス
１０３通信デバイス
１０４入力デバイス
１０５出力デバイス
１１０特徴ベクトル記憶部
１２０トレーニングデータ記憶部
１３０学習部
１４０分類部

Claims

トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を記憶する、トレーニングデータ記憶手段と、
分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する学習手段と、
を備える、情報処理システム。
前記第１関係は、前記第１イベントが前記第２イベントの前に発生する時間関係であり、前記第２関係は、前記第１イベントが前記第２イベントを伴意する伴意関係である、
請求項１に記載の情報処理システム。
前記第１イベントの特徴量は、前記第１イベントに含まれる単語の特徴量により決定され、前記第２イベントの特徴量は、前記第２イベントに含まれる単語の特徴量により決定される、
請求項１又は２に記載の情報処理システム。
さらに、前記学習手段により学習された前記ニューラルネットワークを用いて、前記分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類する、分類手段を備える、
請求項１乃至３のいずれか一項に記載の情報処理システム。
前記関係は、前記第１関係、前記第２関係、及び、第３関係のうちいずれか一つの関係であり、
前記学習手段は、前記分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係、前記第２関係、または、前記第３関係に分類する前記ニューラルネットワークを、前記トレーニングペアを用いて学習し、
前記ニューラルネットワークは、さらに、前記第３関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第３層を含み、
前記結合層は、前記第１関係、前記第２関係、及び、前記第３関係の結合特徴量を前記第１関係の特徴量、前記第２関係の特徴量、及び、前記第３関係の特徴量から抽出する、
請求項１に記載の情報処理システム。
前記第１関係は、前記第１イベントが前記第２イベントの前に発生する時間関係であり、前記第２関係は、前記第１イベントが前記第２イベントを伴意し、かつ、前記第２イベントが前記第１イベントを伴意する、伴意関係であり、前記第３関係は、前記第１イベントが前記第２イベントを伴意するが、前記第２イベントは前記第１イベントを伴意しない、完全伴意関係である、
請求項５に記載の情報処理システム。
トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を読み出し、
分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する、
情報処理方法。
コンピュータに、
トレーニング用の第１イベント及び第２イベントから成るペア、及び、前記トレーニング用の前記第１イベント及び前記第２イベントから成るペアの間の関係であって第１関係または第２関係を読み出し、
分類対象の前記第１イベント及び前記第２イベントから成るペアの間の関係を、前記第１関係または前記第２関係に分類するニューラルネットワークであって、前記第１関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第１層と、前記第２関係の特徴量を前記第１イベントの特徴量及び前記第２イベントの特徴量から抽出する第２層と、前記第１関係及び前記第２関係の結合特徴量を前記第１関係の特徴量及び前記第２関係の特徴量から抽出する結合層と、を含むニューラルネットワークを、前記トレーニング用のペアを用いて学習する、
処理を実行させるプログラム。