JP2022122029A

JP2022122029A - データ処理装置、データ処理方法及びデータ処理プログラム

Info

Publication number: JP2022122029A
Application number: JP2021019078A
Authority: JP
Inventors: 智弘山崎; Toshihiro Yamazaki; 快行爰島; Yasuyuki Kokojima
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2021-02-09
Filing date: 2021-02-09
Publication date: 2022-08-22
Also published as: US20220253346A1; US11886936B2

Abstract

【課題】出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供すること。【解決手段】データ処理装置は、抽出部と、関係データ生成部とを有する。抽出部は、入力された第１の文書データから、第１の出来事データと、第２の出来事データと、第３の出来事データとを抽出する。関係データ生成部は、第１の出来事データと第２の出来事データとの間に推移性があることを示す第１の関係データが抽出され、第２の出来事データと第３の出来事データとの間に推移性があることを示す第２の関係データが抽出されたとき、第１の出来事データと第３の出来事データに関係があることを示す第３の関係データを生成する。【選択図】図１

Description

実施形態は、データ処理装置、データ処理方法及びデータ処理プログラムに関する。

文書に書かれている出来事の数をＮとすると、Ｎ個の出来事から重複を許容して２個を抽出する場合の組み合わせはＯ（Ｎ^２）だけ存在する。しかしながら、出来事の間にある関係の数は実際には少ないことが知られている。このように出来事同士の関係は正例に対して負例が非常に多い不均衡データである。したがって、出来事同士の関係の機械学習はうまくいかないことが多い。

画像認識の分野では、アンダーサンプリングによって負例を減らすこと、オーバーサンプリングによって正例を増やすこと等が行われている。一方で、自然言語処理の分野においてデータを拡張するための手法として、文中の単語を同義語で置き換えたり、文中に単語をランダムに追加したり、文中の一部の単語をランダムに削除したり、文中の単語の並びをランダムに入れ換えたりしてデータを拡張することが提案されている。

Jason Wei et al. "EDA: Easy Data Augmentation Techniques for Boosting Performance on Text Classification Tasks", Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 6382-6388, Hong Kong, China, November 3-7, 2019.

文書の利用例として、文書に書かれている出来事から文書に書かれているトラブルの原因等を自動分析することが挙げられる。トラブルは、複数の出来事が連なった結果として生じることがある。このような複数の出来事が連なった結果として生じるトラブルの原因等を分析するためには、出来事の間の時間的な順序関係及び因果関係といった出来事の間の推移性が把握される必要がある。文書に書かれている出来事の表現に対し、単語を同義語で置き換える、文中にランダムに単語を追加する、文中の一部の単語をランダムに削除する、文中の単語の並びをランダムに入れ換えるといったことでデータが拡張されるだけでは、出来事の間に生じ得る推移関係が十分に活用されているとは言えない。

実施形態は、出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供する。

データ処理装置は、抽出部と、関係データ生成部とを有する。抽出部は、入力された第１の文書データから、第１の出来事データと、第２の出来事データと、第３の出来事データとを抽出する。関係データ生成部は、第１の出来事データと第２の出来事データとの間に推移性があることを示す第１の関係データが抽出され、第２の出来事データと第３の出来事データとの間に推移性があることを示す第２の関係データが抽出されたとき、第１の出来事データと第３の出来事データに関係があることを示す第３の関係データを生成する。

本実施形態によれば、出来事の間の推移関係を考慮してデータを拡張することができるデータ処理装置、データ処理方法及びデータ処理プログラムを提供できる。

図１は、第１の実施形態に係るデータ処理装置の一例の構成を示す図である。図２は、データ処理装置のハードウェア構成の一例を示す図である。図３は、第１の実施形態のデータ処理装置によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図４は、文書データの一例を示す図である。図５は、出来事データの一例を示す図である。図６は、図５の出来事データから生成される関係データの例を示す図である。図７は、第２の実施形態に係るデータ処理装置の一例の構成を示す図である。図８は、第２の実施形態のデータ処理装置によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図９は、出来事データの一例を示す図である。図１０は、図９の出来事データから生成される関係データの例を示す図である。図１１は、類似性の算出結果の一例を示す図である。

以下、図面を参照して実施形態を説明する。
［第１の実施形態］
第１の実施形態を説明する。図１は、第１の実施形態に係るデータ処理装置の一例の構成を示す図である。データ処理装置１は、入力部１１と、抽出部１２と、関係データ生成部１３とを有する。

入力部１１は、文書データの入力を受け付ける。実施形態における文書データは、複数の出来事が記載された文書のデータである。実施形態における出来事は、例えば「何が何をどうしたか」を表す複数の単語の組み合わせで構成される。実施形態においては、出来事の間には、推移関係がある。推移関係は、第１項の出来事と第２項の出来事との間の関係Ｒが推移性を有している関係を言う。出来事の間の推移関係とは、「ＸならばＹ」及び「ＹならばＺ」が成立するときに、「ＸならばＺ」が成立する関係であって、例えば出来事の間の順序関係、出来事の間の因果関係、出来事の間の同一関係、出来事の間の包含関係等を含み得る。例えば、トラブルに関わる出来事が時系列順で記載された文書は、出来事の順序間に推移関係がある。

抽出部１２は、入力された文書データから出来事データを抽出する。抽出部１２は、例えば形態素解析により、入力された文書データに含まれる文章を形態素の単位に分解し、分解された形態素に基づいて出来事データを抽出する。また、抽出部１２は、抽出した出来事データの間の推移関係を表す関係データを抽出する。

関係データ生成部１３は、抽出部１２によって抽出された関係データに基づき、入力された文書データには含まれていない、出来事の間の新たな関係を表す関係データを生成する。

図２は、データ処理装置１のハードウェア構成の一例を示す図である。データ処理装置１は、例えばプロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６とをハードウェアとして有している。プロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６とは、バス１０７に接続されている。データ処理装置１は、パーソナルコンピュータ（ＰＣ）、スマートフォン、タブレット端末といった端末装置であってよい。

プロセッサ１０１は、データ処理装置１の全体的な動作を制御するプロセッサである。プロセッサ１０１は、例えばストレージ１０６に記憶されているプログラムを実行することによって、入力部１１と、抽出部１２と、関係データ生成部１３として動作する。プロセッサ１０１は、例えばＣＰＵである。プロセッサ１０１は、ＭＰＵ、ＧＰＵ、ＡＳＩＣ、ＦＰＧＡ等であってもよい。プロセッサ１０１は、単一のＣＰＵ等であってもよいし、複数のＣＰＵ等であってもよい。

メモリ１０２は、ＲＯＭ及びＲＡＭを含む。ＲＯＭは、不揮発性のメモリである。ＲＯＭは、データ処理装置１の起動プログラム等を記憶している。ＲＡＭは、揮発性のメモリである。ＲＡＭは、例えばプロセッサ１０１における処理の際の作業メモリとして用いられる。

入力装置１０３は、タッチパネル、キーボード、マウス等の入力装置である。入力装置１０３の操作がされた場合、操作内容に応じた信号がバス１０７を介してプロセッサ１０１に入力される。プロセッサ１０１は、この信号に応じて各種の処理を行う。入力装置１０３は、例えば文書データの入力に用いられ得る。

表示装置１０４は、液晶ディスプレイ、有機ＥＬディスプレイ等の表示装置である。表示装置１０４は、各種の画像を表示する。

通信装置１０５は、データ処理装置１が外部の機器と通信するための通信装置である。通信装置１０５は、有線通信のための通信装置であってもよいし、無線通信のための通信装置であってもよい。

ストレージ１０６は、例えばハードディスクドライブ、ソリッドステートドライブといったストレージである。ストレージ１０６は、データ処理プログラム１０６１等のプロセッサ１０１によって実行される各種のプログラムを記憶している。また、ストレージ１０６は、文書データを形態素解析するための形態素辞書１０６２を記憶している。また、ストレージ１０６は、過去に生成された関係データ１０６３を記憶している。さらに、ストレージ１０６は、学習モデル１０６４を記憶している。学習モデル１０６４は、関係データ１０６３を用いて学習を実施し、文書に書かれている出来事から文書に書かれているトラブルの原因等を自動分析するように構築されたモデルである。形態素辞書１０６２、関係データ１０６３及び学習モデル１０６４は、必ずしもストレージ１０６に記憶されている必要はない。例えば、形態素辞書１０６２、関係データ１０６３及び学習モデル１０６４は、データ処理装置１の外部のサーバに記憶されていてもよい。この場合、データ処理装置１は、通信装置１０５を用いてサーバにアクセスすることで必要な情報を取得する。

バス１０７は、プロセッサ１０１と、メモリ１０２と、入力装置１０３と、表示装置１０４と、通信装置１０５と、ストレージ１０６との間のデータのやり取りのためのデータ転送路である。

次に第１の実施形態におけるデータ処理装置１の動作を、具体例を交えながら説明する。図３は、データ処理装置１によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図３の処理は、プロセッサ１０１によって実行される。

ステップＳ１において、プロセッサ１０１は、文書データを取得する。文書データは、ユーザによって入力され得る。ユーザは、例えば入力装置１０３を操作して文書データを入力する。例えば、図４に示す文書データが入力されたとする。

ステップＳ２において、プロセッサ１０１は、文書データから出来事データを抽出する。プロセッサ１０１は、例えば形態素解析と係り受け解析によって出来事データを抽出する。例えば、プロセッサ１０１は、形態素解析によって文章を形態素に分解し、係り受け解析によって文節の関係を推定する。そして、文節の並びである出来事データを抽出する。例えば、図４に示す文書データの下線部から、図５に示す４つの出来事データＡ、Ｂ、Ｃ、Ｄが抽出されたとする。

ステップＳ３において、プロセッサ１０１は、抽出した出来事データから関係データを生成する。例えば、プロセッサ１０１は、形態素解析された文書データにおいて、出来事間の推移性を表す単語を抽出する。推移性を表す単語は、日本語であれば、「と」、「ところ」、「とき」、「前」、「後」等の前後の文の時間的な順序関係を表す単語、「そのため」、「ならば」、「ので」等の前後の文の因果関係を表す単語である。また、推移性を表す単語は、英語であれば、「when」、「before」、「after」等の前後の文の時間的な順序関係を表す単語、「If」、「Because」等の前後の文の因果関係を表す単語である。これらの推移性を表す単語を抽出できた場合、プロセッサ１０１は、抽出した推移性を表す単語の前後の出来事データから関係データを生成する。

図４の例では、プロセッサ１０１は、図４の下線で示す「と」、「そのため」、「ところ」を、推移性を表す単語として抽出できたとする。このことは、「と」の前後の出来事データである出来事データＡと出来事データＢ、「そのため」の前後の出来事データＢと出来事データＣ、「ところ」の前後の出来事データである出来事データＣと出来事データＤとの間には推移関係があることを意味している。

図６は、図５の出来事データから生成される関係データの例である。図６に示すように、関係データは、第１項、第２項、ホップ数、関係の強さのデータを含む。第１項は、推移関係を有する２つの出来事データのうちの第１項の出来事データである。例えば、推移性が時間的な順序関係であれば第１項の出来事データは、時間的に前の出来事データであり、推移性が因果関係であれば第１項の出来事データは、原因の出来事データである。第２項は、推移関係を有する２つの出来事データのうちの第２項の出来事データである。例えば、推移性が時間的な順序関係であれば第２項の出来事データは、時間的に後の出来事データであり、推移性が因果関係であれば第２項の出来事データは、結果の出来事データである。ホップ数は、文書データ上での、第１項の出来事データを基準とした第２項の出来事データまでの出来事データ単位の距離を表す。例えば、第１項の出来事データと第２項の出来事データとの間に他の出来事データが存在していないときのホップ数は１である。一方、第１項の出来事データと第２項の出来事データとの間に１つの他の出来事データが存在しているときのホップ数は２である。関係の強さは、第１項の出来事データと第２項の出来事データとの関係性の強さを表す。関係の強さは、例えば０から１の範囲の値を有する。文書データから直接的に生成される関係データにおける関係の強さは、例えばホップ数に応じて決められてよい。例えば、関係の強さは、ホップ数が１に近いほどに１に近くなるように算出されてよい。

ここで、例では出来事の間の推移性を表す単語を文章から抽出することによって推移性を有する２つの出来事データが特定される。これに対し、出来事の間の推移性を表す単語を特定することなく、出来事の間の時間的な順序関係又は因果関係が特定され得る場合であっても、プロセッサ１０１は、それらの出来事から関係データを生成してよい。つまり、文書からの関係データの生成は、特定の手法には限定されない。

ステップＳ４において、プロセッサ１０１は、生成した関係データを例えばストレージ１０６に記憶させる。ストレージ１０６に記憶された関係データは、学習モデル１０６４における機械学習に用いられ得る。

ステップＳ５において、プロセッサ１０１は、関係データを参照して、推移関係Ｒ（Ｘ，Ｙ）と推移関係Ｒ（Ｙ，Ｚ）の両方を満たしている出来事データＸ、Ｙ、Ｚが存在しているか否かを判定する。ここで、Ｒ（Ｘ，Ｙ）は、第１項の出来事データＸと第２項の出来事データＹとの間に推移関係Ｒが存在していることを表している。また、Ｒ（Ｙ，Ｚ）は、第１項の出来事データＹと第２項の出来事データＺとの間に推移関係Ｒが存在していることを表している。図５の例の場合、Ｘ、Ｙ、Ｚは、出来事データＡ、Ｂ、Ｃ、Ｄの何れかである。例えば、プロセッサ１０１は、第１項に出現している出来事データと第２項に出現している出来事データとを比較し、第１項と第２項の両方に出現している出来事データがあるか否かを判定する。図６の例では、出来事データＢと出来事データＣが第１項と第２項の両方に出現している。この場合、推移関係Ｒ（Ｘ，Ｙ）と推移関係Ｒ（Ｙ，Ｚ）の両方を満たしている出来事データＸ、Ｙ、Ｚが存在していることになる。ステップＳ５において、推移関係Ｒ（Ｘ，Ｙ）と推移関係Ｒ（Ｙ，Ｚ）の両方を満たしている出来事データＸ、Ｙ、Ｚが存在していると判定されたときには、処理はステップＳ６に移行する。ステップＳ５において、推移関係Ｒ（Ｘ，Ｙ）と推移関係Ｒ（Ｙ，Ｚ）の両方を満たしている出来事データＸ、Ｙ、Ｚが存在していないと判定されたときには、図３の処理は終了する。

ステップＳ６において、プロセッサ１０１は、第１項と第２項に共通して出現している出来事データに基づいて新たな関係データを生成する。例えば、プロセッサ１０１は、第１項と第２項に共通して出現している出来事データが第２項に出現しているときの第１項の出来事データを第１項とし、第１項と第２項に共通して出現している出来事データが第１項に出現しているときの第２項の出来事データを第２項とする関係データを生成する。さらにプロセッサ１０１は、ホップ数及び関係の強さを算出する。

ステップＳ６の処理を図６の例を用いて具体的に説明する。前述したように、図６の例では、出来事データＢと出来事データＣが第１項と第２項の両方に出現している。

まず、プロセッサ１０１は、出来事データＢを用いて新たな関係データを生成する。プロセッサ１０１は、まず、出来事データＢが第２項に出現しているときの第１項の集合を求める。図６の例では、出来事データＢが第２項に出現しているときの第１項の集合は｛Ａ｝である。また、プロセッサ１０１は、出来事データＢが第１項に出現しているときの第２項の集合を求める。図６の例では、出来事データＢが第１項に出現しているときの第２項の集合は｛Ｃ｝である。次に、プロセッサ１０１は、これらの第１項の集合と第２の集合の直積を求める。図６の例では、直積集合は｛（Ａ，Ｃ）｝である。この直積集合の要素のそれぞれが新たな関係データにおける第１項の出来事データと第２項の出来事データに相当する。

同様にプロセッサ１０１は、出来事データＣを用いて新たな関係データを生成する。つまり、プロセッサ１０１は、出来事データＣが第２項に出現しているときの第１項の集合と出来事データＣが第１項に出現しているときの第２項の集合を求め、これらの集合の直積集合を計算する。図６の例では、直積集合は、｛（Ｂ，Ｄ）｝である。この直積集合の要素のそれぞれが新たな関係データにおける第１項の出来事データと第２項の出来事データに相当する。

直積集合を求めた後、プロセッサ１０１は、新たな関係データにおけるホップ数を計算する。例えば、第１項が出来事データＡであり、第２項が出来事データＣである関係データにおけるホップ数は２である。同様に、第１項が出来事データＢであり、第２項が出来事データＤである関係データにおけるホップ数は２である。

さらに、プロセッサ１０１は、新たな関係データにおける関係の強さを計算する。関係の強さは、例えば関係元となった２つの関係データにおける関係の強さの積や最小値等で決められてもよい。図６の例では、第１項が出来事データＡであり、第２項が出来事データＣである関係データにおける関係の強さは１である。同様に、第１項が出来事データＢであり、第２項が出来事データＤである関係データにおける関係の強さは１である。なお、新たな関係データにおける関係の強さγは、関係元となった２つの関係データにおける関係の強さα、β又は関係元となった関係の強さα及びβから算出された関係の強さに適当な減衰度を乗じることで算出されてもよい。減衰度は、例えばホップ数によって決められてよい。このように、新たな関係データにおける関係の強さＦ３は、関係元となった２つの関係データにおける関係の強さＦ１、Ｆ２に対して所定の関数ｆによる演算を施すことによって計算されてよい。

ここで、図３の説明に戻る。ステップＳ７において、プロセッサ１０１は、ホップ数が閾値以下である新たな関係データがあるか否かを判定する。例えば新たな関係データがホップ数ｍ（ｍは自然数）の関係データとホップ数ｎ（ｎは自然数）の関係データとから生成されるとしたとき、閾値はＭＡＸ（ｍ，ｎ）＋１であり得る。ステップＳ７において、ホップ数が閾値以下である新たな関係データがないと判定されたとき、図３の処理は終了する。この場合、新たな関係データは例えばストレージ１０６に記憶されない。このようなホップ数の制限が設けられている理由は、余りにも大きなホップ数を有する出来事同士の間には真に推移関係があるかが疑わしいためである。なお、ホップ数の制限に代えて、前述の減衰度によって関係の強さが閾値を下回ったときには、対応する関係データがストレージ１０６に記憶されないように構成されてもよい。ステップＳ７において、ホップ数が閾値以下である新たな関係データがあると判定されたとき、処理はステップＳ８に移行する。

ステップＳ８において、プロセッサ１０１は、新たに生成した関係データを例えばストレージ１０６に記憶させる。その後、処理はステップＳ５に戻る。この場合、新たに生成した関係データも含めて同様の処理が繰り返される。図６の例では、Ｒ（Ａ，Ｃ）及びＲ（Ｂ，Ｄ）の関係データが新たに追加される。このため、再度のステップＳ５－Ｓ６の処理により、第１項が出来事データＡであり、第２項が出来事データＤである新たな関係データが生成される。この新たな関係データのホップ数は３である。したがって、この新たな関係データも例えばストレージ１０６に記憶される。

以上説明したように第１の実施形態では、文書データから抽出される出来事データＸ、Ｙ、Ｚについて、出来事データＸと出来事データＹとの間に推移性がある関係データが抽出され、かつ、出来事データＹが出来事データＺに対して推移性があることを示す関係データが抽出されるときに、出来事データＸが出来事データＺに対して関係を有していることを示す新たな関係データが生成される。

文書データにおいて抽出される出来事同士の推移関係が考慮されて新たな関係が生成されるので、出来事同士の関係として成立し得る関係データが生成されやすい。つまり、第１の実施形態で新たに生成される関係データは、正例になりやすい。このような関係データが機械学習に用いられることにより、正例と負例の不均衡が抑えられ、出来事同士の関係が正しく学習され得る。

ここで、実施形態では出来事データＸと出来事データＹとの間に推移性があることを示す関係データが抽出され、かつ、出来事データＹが出来事データＺに対して推移性があることを示す関係データが抽出されるときには自動的に出来事データＸが出来事データＺに対して関係を有していることを示す新たな関係データが生成されるとされている。この場合、特にホップ数が大きくなると出来事データＸが出来事データＺとの間に真に推移性があるかは疑わしくなる。これに対し、実施形態では出来事データＸと出来事データＹとの間に推移性があることを示す関係データが抽出され、かつ、出来事データＹが出来事データＺに対して推移性があることを示す関係データが抽出された場合であって、さらに出来事データＸと出来事データＹとの間の類似性が高いときだけ、出来事データＸが出来事データＺに対して関係を有していることを示す新たな関係データが生成されてもよい。このような処理により、より負例が生成される可能性が低減される。なお、類似性については、第２の実施形態において詳しく説明する。

［第２の実施形態］
第２の実施形態を説明する。第１の実施形態は、同一の文書データ内で抽出された出来事データに基づいて新たな関係データが生成される。ここで、出来事の表現が異なるだけでほぼ同一の推移関係を表している文書データも存在し得る。

図７は、第２の実施形態に係るデータ処理装置の一例の構成を示す図である。データ処理装置１は、入力部１１と、抽出部１２と、関係データ生成部１３と、類似性算出部１４とを有する。第１の実施形態と同様に、プロセッサ１０１は、例えばストレージ１０６に記憶されているプログラムを実行することによって、入力部１１と、抽出部１２と、関係データ生成部１３と、類似性算出部１４として動作する。ここで、第２の実施形態において第１の実施形態と同様の構成及び動作については適宜に説明を省略又は簡略化する。

入力部１１と抽出部１２とは第１の実施形態と同様である。第２の実施形態における関係データ生成部１３は、第１の実施形態と同様に１つの文書データ１から抽出される出来事データを用いて新たな関係データを生成する。さらに、第２の実施形態における関係データ生成部１３は、別の文書データ２から抽出される文書データ１と類似の表現の出来事データを用いて新たな関係データを生成する。

類似性算出部１４は、出来事データ同士の類似性を算出する。類似性は、例えば０から１の値を有する。例えば、類似性の値が高いほどに、対応する出来事データが類似していることを意味する。類似性算出部１４は、例えば出来事データを数値化、すなわちベクトル化し、ベクトルで表現された出来事データ同士のコサイン類似度を出来事データ同士の類似性として算出する。

ベクトル化は、例えばＴＦ－ＩＤＦ（Term Frequency-Inverse Document Frequency）値を利用することで行われ得る。類似性算出部１４は、抽出部１２で求められたそれぞれの形態素の集合が出現している出来事の頻度をＤＦ値として数える。このＤＦ値の逆数がＩＤＦ値である。また、類似性算出部１４は、ストレージ１０６に記憶されている関係データ毎のそれぞれの形態素の出現頻度をＴＦ値として数える。そして、類似性算出部１４は、それぞれの形態素についてＴＦ値とＩＤＦ値との積をＴＦ－ＩＤＦ値として求める。出来事データに含まれるＴＦ－ＩＤＦ値の集合により、出来事データがベクトルによって表現され得る。

また、ベクトル化は、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）等の事前学習済み深層学習モデルを用いて行われてもよい。この場合、それぞれの出来事データに含まれる形態素がＢＥＲＴモデルに入力されることで出来事データがベクトルによって表現され得る。このように、出来事データのベクトル化は、類似性算出部１４において類似性を算出できれば任意の手法に基づいて行われてよい。

次に第２の実施形態におけるデータ処理装置１の動作を、具体例を交えながら説明する。図８は、データ処理装置１によるデータ処理方法としての関係データの生成の動作を示すフローチャートである。図８の処理は、プロセッサ１０１によって実行される。ここで、図８の処理に先立って文書データ１としての図４に示した文書データについて実施形態の処理が行われているものとする。したがって、ストレージ１０６には、図５で示した関係データ及びこの関係データに基づいて新たに生成された関係データがすでに記憶されている。

ステップＳ１０１において、プロセッサ１０１は、別の文書データである文書データ２を取得する。文書データ２は、ユーザによって入力され得る。ユーザは、例えば入力装置１０３を操作して文書データ２を入力する。

ステップＳ１０２において、プロセッサ１０１は、文書データ２から出来事データを抽出する。プロセッサ１０１は、例えば形態素解析によって出来事データを抽出する。例えば、文書データ２から、図９に示す４つの出来事データＡ´、Ｂ´、Ｅ、Ｆが抽出されたとする。

ステップＳ１０３において、プロセッサ１０１は、抽出した出来事データから関係データを生成する。例えば、文書データ２から図１０に示す関係データが生成されたとする。

ステップＳ１０４において、プロセッサ１０１は、文書データ１から生成された関係データと文書データ２から生成された関係データの類似性を算出する。例えば、図１１に示すように、出来事データＡと出来事データＡ´、出来事データＢと出来事データＢ´はそれぞれ高い類似性を有していたとする。

ステップＳ１０５において、プロセッサ１０１は、類似性の高い関係データがあるか否かを判定する。プロセッサ１０１は、文書データ１から生成された第１項の出来事データと文書データ２から生成された第１項の出来事データ、文書データ１から生成された第２項の出来事データと文書データ２から生成された第２項の出来事データをそれぞれ比較して少なくとも一方の類似性が閾値、例えば０．８０以上である関係データがあるときに類似性の高い関係データがあると判定する。ステップＳ１０５において、類似性の高い関係データがあると判定されたときには、処理はステップＳ１０６に移行する。ステップＳ１０５において、類似性の高い関係データがないと判定されたときには、図８の処理は終了する。

ステップＳ１０６において、プロセッサ１０１は、類似性の高い関係データに含まれる第１項と第２の出来事データに基づいて新たな関係データを生成する。例えば、プロセッサ１０１は、類似性の高い第１項の出来事データ同士を同じ出来事データとみなし、また、類似性の高い第２項の出来事データ同士を同じ出来事データとみなして第１の実施形態と同様に新たな関係データを生成する。例えば、出来事データＡと出来事データＡ´、出来事データＢと出来事データＢ´が類似しているとする。このとき、第１項に出現している出来事データと第２項の出来事データとに共通して出現している出来事データとして、第１の実施形態の例の出来事データＢと出来事データＣに加えて出来事データＢ´が新たに存在する。類似性が高い出来事データＢと出来事データＢ´とを同一とみなして出来事データＢ又はＢ´が第２項に出現しているときの第１項の集合を求めると、第１項の集合は｛Ａ、Ａ´｝である。同様に、出来事データＢ又はＢ´が第１項に出現しているときの第２項の集合を求めると、第２項の集合は｛Ｃ｝である。したがって、これらの集合の直積集合は、｛（Ａ、Ｃ）、（Ａ´、Ｃ）｝である。このため、Ｒ（Ａ´，Ｃ）というホップ数２の関係データが新たに生成される。ここで、新たな関係データにおける関係の強さは、第１の実施形態と同様に例えば関係元となった２つの関係データにおける関係の強さの積や最小値等で決められてよい。さらに、第２の実施形態においては、新たな関係データにおける関係の強さは、類似性に応じた係数が乗じられることで算出されてもよい。

ステップＳ１０７において、プロセッサ１０１は、新たに生成した関係データを例えばストレージ１０６に記憶させる。その後、図８の処理は終了する。第１の実施形態と同様に、新たに生成した関係データも含めて同様の処理が繰り返されてもよい。この場合には、第１の実施形態と同様に、採用される関係データには、ホップ数の制限が設けられることが好ましい。

以上説明したように第２の実施形態では、別の文書データから抽出される表現が異なるだけで類似の関係を表す関係データが考慮されて新たな関係データが生成される。これにより、正例をより増やすことができる。

また、ある文書には「水が漏れたので酸が発生し、そのせいで錆が発生した」と記載されていて、別の文書では「水が漏れたので錆が発生した」と記載されていたといったように出来事が記載される際の粒度が異なっているようなことがよくある。第２の実施形態では、これらの粒度の異なる２つの文書データのどちらからでも原因＝水が漏れた、結果＝錆が発生した、という関係データが生成され得る。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１１入力部、１２抽出部、１３関係データ生成部、１４類似性算出部、１０１プロセッサ、１０２メモリ、１０３入力装置、１０４表示装置、１０５通信装置、１０６ストレージ、１０７バス。

Claims

入力された第１の文書データから、第１の出来事データと、第２の出来事データと、第３の出来事データとを抽出する抽出部と、
前記第１の出来事データと前記第２の出来事データとの間に推移性があることを示す第１の関係データが抽出され、前記第２の出来事データと前記第３の出来事データとの間に推移性があることを示す第２の関係データが抽出されたとき、前記第１の出来事データと前記第３の出来事データに関係があることを示す第３の関係データを生成する関係データ生成部と、
を具備するデータ処理装置。
前記関係データ生成部は、前記第１の出来事データと前記第３の出来事データとの間の関係の強さを示す第３の強さデータをさらに前記第３の関係データに含める、
請求項１に記載のデータ処理装置。
前記関係データ生成部は、
前記第１の出来事データと前記第２の出来事データとの間の関係の強さを示す第１の強さデータと、前記第２の出来事データと前記第３の出来事データとの間の関係の強さを示す第２の強さデータとに基づいて前記第３の強さデータを生成する、
請求項２に記載のデータ処理装置。
出来事の間の類似性を算出する類似性算出部をさらに具備し、
前記関係データ生成部は、前記第１の出来事データと前記第２の出来事データとの類似性が閾値以上であるときに、前記第３の関係データを生成する、
請求項１乃至３の何れか１項に記載のデータ処理装置。
前記抽出部は、入力された第２の文書データから、第４の出来事データと第５の出来事データとをさらに抽出し、
前記関係データ生成部は、前記第４の出来事データと前記第５の出来事データとの間に推移性があることを示す第４の関係データが抽出され、かつ、前記第２の出来事データと前記第４の出来事データとの類似性が閾値以上であるときに、前記第１の出来事データと前記第５の出来事データとの間に関係があることを示す第５の関係データを生成する、
請求項４に記載のデータ処理装置。
前記抽出部は、入力された第２の文書データから、第６の出来事データと第７の出来事データをさらに抽出し、
前記関係データ生成部は、
前記第６の出来事データと前記第７の出来事データとの間に推移性があることを示す第６の関係データが抽出され、かつ、前記第１の出来事データと前記第６の出来事データとの類似性が閾値以上であるときに、前記第１の出来事データと前記第７の出来事データとの間に関係があることを示す第７の関係データと前記第６の出来事データと前記第２の出来事データとの間に関係があることを示す第８の関係データの一方又は両方を生成する、
請求項４又は５に記載のデータ処理装置。
前記関係データ生成部は、
前記第１の出来事データと前記第３の出来事データとの間の関係の距離を表すホップ数を算出し、
前記ホップ数が所定値を超えるときには、前記第３の関係データを採用しない、
請求項１乃至６の何れか１項に記載のデータ処理装置。
抽出部において、入力された第１の文書データから、第１の出来事データと、第２の出来事データと、第３の出来事データとを抽出する抽出部と、
関係データ生成部において、前記第１の出来事データと前記第２の出来事データとの間に推移性があることを示す第１の関係データが抽出され、前記第２の出来事データと前記第３の出来事データとの間に推移性があることを示す第２の関係データが抽出されたとき、前記第１の出来事データと前記第３の出来事データに関係があることを示す第３の関係データを生成することと、
を具備するデータ処理方法。
抽出部において、入力された第１の文書データから、第１の出来事データと、第２の出来事データと、第３の出来事データとを抽出する抽出部と、
関係データ生成部において、前記第１の出来事データと前記第２の出来事データとの間に推移性があることを示す第１の関係データが抽出され、前記第２の出来事データと前記第３の出来事データとの間に推移性があることを示す第２の関係データが抽出されたとき、前記第１の出来事データと前記第３の出来事データに関係があることを示す第３の関係データを生成することと、
をプロセッサに実行させるためのデータ処理プログラム。